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PCI 与 PCI Express (PCIe) 总 线 在 处 理 需 系统 中 得 到 了 大 规模 应 用 。PCISIG 也 制定 了 
一 系列 PCI 与 PCI Express 总 线 相关 的 规范 ， 这 些 规范 所 涉及 的 内 容 庞 杂 广 泛 。 对 于 已 经 理 
解 了 PCI 与 PCI Express 总 线 的 工程 师 ， 这 些 规范 便于 他 们 进一步 获得 必要 的 细节 知识 。 对 
于 刚刚 接触 PCI 与 PCI Express 总 线 的 工程 师 ， 这 些 规范 性 的 文档 并 不 适合 阅读 。 在 阅读 这 
些 规范 时 ， 工 程 师 还 需要 具备 一 些 与 体系 结构 相关 的 基础 知识 ， 这 恰 是 规范 并 不 涉及 的 内 
容 。 对 于 多 数 工程 师 ， 规 范文 档 适 于 查阅 ， 而 不 便于 学 习 。 

本 书 将 以 处 理 器 体系 结构 为 主线 介绍 PCI Express 总 线 的 组 成 ， 以 便 读 者 进一步 理解 PCI 
Express 总 线 协 议 。 本 书 并 不 是 关于 PCI 和 PCI Express 总 线 的 百科 全 书 ， 因 为 读者 完全 可 以 
通过 阅读 PCI 和 PCI Express 总 线 规范 获得 细节 信息 。 本 书 侧重 的 是 PCI 和 PCI Express 总 线 
中 与 处 理 器 体系 结构 相关 的 内 容 。 

本 书 不 会 对 PCI 总 线 的 相关 规范 进行 简单 重复 ， 部 分 内 容 并 不 在 PCI 总 线 规范 定义 的 范 
围 内 ， 例 如 HOST 主 桥 和 RC。PCI 总 线 规 范 并 没有 规定 处 理 需 厂商 如 何 实现 HOST 主 桥 和 
RC， 不 同 的 处 理 器 厂商 实现 的 HOST 主 桥 和 RC 有 较 大 差异 ， 而 这 些 内 容 正 是 本 书 所 讨论 的 
重点 。 此 外 本 书 还 讲述 了 一 些 在 PCI 总 线 规范 中 提 及 ,但 是 容易 被 忽略 的 一 些 重要 概念 。 

本 书 共 由 三 篇 组 成 。 第 I 篇 (第 1 ~3 章 ) 介绍 PCI 总 线 的 基础 知识 。 第 工 篇 (第 4 ~ 
13 章 ) 介绍 PCI Express 总 线 的 相关 概念 。 第 开篇 的 内 容 以 第 工 篇 为 基础 。 从 系统 软件 的 角 
度 来 看 ，PCI Express 总 线 向 前 兼容 PCI 总 线 ， 理 解 PCI Express 总 线 必须 建立 在 深刻 理解 PCI 
总 线 的 基础 之 上 。 读 者 需要 按照 顺序 阅读 这 两 篇 。 

第 1 章 主要 说 明 PCI 总 线 涉及 的 一 些 基 本 知识 。 有 些 知识 稍 显 过 时 ， 但 是 在 PCI 总 线 中 
出 现 的 一 些 数据 传送 方式 ， 如 Posted 、Non-Posted 和 Split 数据 传送 方式 ， 依然 非常 重要 ， 也 
是 读者 需要 掌握 的 。 

第 2 章 重点 介绍 PCI 桥 。PCI 桥 是 PCI 及 PCI Express 体系 结构 的 精华 所 在 ， 本 章 还 使 用 
了 一 定 篇 幅 介绍 了 非 透 明 桥 。 非 透明 桥 不 是 PCI 总 线 定义 的 标准 桥 片 ， 但 是 在 处 理 器 系统 之 
间 的 互联 中 得 到 了 广泛 的 应 用 。 

第 3 章 详细 阐述 PCI 总 线 的 数据 传送 方式 ， 与 Cache 相关 的 内 容 和 预 读 机 制 是 本 章 的 重 
点 。 目 前 PCI 与 PCI Express 对 预 读 机 制 的 支持 并 不 理想 。 但 是 在 可 以 预见 的 将 来 ，PCI Ex- 
press 总 线 将 充分 使 用 智能 预 读 机 制 进一步 提高 总 线 的 利用 率 。 

第 4 章 是 PCI Express 篇 的 综述 。 第 5 章 以 Intel 的 笔记 本 平台 Montevina 为 例 说 明 RC 的 
各 个 组 成 模块 。 实 际 上 RC 这 个 概念 ， 只 有 在 x86 处 理 器 平台 中 才 真 正 存在 。 其 他 处 理 器 系 
统 中 ， 并 不 存在 严格 意义 上 的 RC。 

第 6、7 章 分 别 介绍 PCI Express 总 线 的 事务 层 、 数 据 链 路 层 和 物理 层 。 物 理 层 是 PCI 
Express 总 线 的 真正 核心 ， 也 是 中 国 工 程 师 最 没有 机 会 接触 的 内 容 。 这 是 我 们 这 一 代 工 程 师 
的 遗憾 与 无 奈 。 第 8 章 简要 说 明了 PCI Express 总 线 的 链 路 训练 与 电源 管理 。 

第 9 章 主要 讨论 的 是 通用 流量 控制 的 管理 方法 与 策略 。PCI Express 总 线 的 流量 控制 机 

亚 


制 仍 需 完 善 ， 其 中 不 等 长 的 报 文 长 度 也 是 限制 PCI Express 总 线 流量 控制 进一步 提高 的 重要 
因素 。 

第 10 章 重点 介绍 MSI 和 MSI-X 中 断 机 制 。MSI 中 断 机 制 在 PCI 总 线 中 率先 提出 ， 但 是 
在 PCI Express 总 线 中 才 得 到 大 规模 普及 。 目 前 x86 架构 多 使 用 MSI-X 中 断 机 制 ， 而 在 许多 
攀 入 式 处 理 右 中 仍然 使 用 MSI 中 断 机 制 。 

第 11 章 的 篇 幅 很 短 ， 重 点 介绍 PCI 和 PCI Express 总 线 中 的 序 。 有 志 于 学 习 处 理 器 体系 
结构 的 工程 师 务 必 掌 握 这 部 分 内 容 。 在 处 理 器 体系 结构 中 有 关 Cache 和 数据 传送 序 的 内 容 非 
常 复杂 ， 掌 握 这 些 内容 也 是 系统 工程 师 进 阶 所 必须 的 。 

第 12 章 讲述 了 笔者 的 一 个 实际 设计 Capric 卡 ， 简 单 介 绍 了 Linux 设备 驱动 程序 的 实 
现 过 程 ， 并 对 PCI Express 总 线 的 延 时 与 带宽 进行 了 简要 分 析 。 

第 13 章 介绍 PCI 总 线 与 虚拟 化 相关 的 一 些 内 容 。 虚 拟 化 技术 已 轩 露 头角 ， 与 虚拟 化 相 
关 的 一 系列 内 容 将 对 处 理 器 体系 结构 产生 深远 的 影响 。 目 前 虚拟 化 技术 已 经 在 x86 处 理 器 中 
得 到 了 广泛 的 应 用 。 

第 亚 篇 以 Linux 系统 为 实例 说 明 PCI 总 线 在 处 理 器 系统 中 的 使 用 方法 ， 也 许 有 许多 读者 
对 这 一 篇 有 着 浓厚 的 兴趣 。Linux 无 疑 是 一 个 非常 优秀 的 操作 系统 。 但 是 需要 提醒 系统 工程 
师 ，Linux 系统 仅 是 一 个 完全 开源 的 操作 系统 。 对 于 有 志 于 学 习 处 理 器 体系 结构 的 工程 师 ， 
学 习 Linux 系统 是 必要 的 ， 但 是 仅 靠 学 习 Linux 系统 并 不 足够 。 
通常 说 来 ， 理 解 处 理 器 体系 结构 至 少 需要 了 解 两 三 种 处 理 器 ， 并 了 解 它 们 在 不 同 操作 系统 
上 的 实现 。 斥 有 所 短 ， 寸 有 所 长 。 不 同 的 处 理 器 和 操作 系统 所 应 用 的 领域 并 不 完全 相同 。 也 是 
因为 这 个 原因 ， 本 书 以 PowerPC 和 x86 处 理 需 为 基础 对 PCI 和 PCI Express 总 线 进行 说 明 。 

本 书 在 写作 过 程 中 得 到 了 我 的 同事 和 在 处 理 器 及 操作 系统 行业 奋战 多 年 的 朋友 们 的 帮 
助 。 在 Linux 系统 中 许多 与 处 理 器 和 PCI 总 线 相 关 的 模块 ， 都 有 着 他 们 的 辛勤 付出 。 刘 建国 
和 郭 超 宏 先生 审阅 了 本 书 的 第 [篇 。 马 明 辉 先生 审阅 了 本 书 的 第 开篇 。 张 园 、 余 珂 与 刘 劲 松 
先生 审阅 了 第 13 章 。 吴 晓 川 、 王 勇 、 丁 建 峰 、 李 力 与 吴强 先生 共同 审阅 了 全 书 。 

本 书 第 12 章 中 出 现 的 Capric 和 Cornus 卡 由 郭 冠 军 和 高 健 协助 完成 。 看 着 他 们 通过 对 
PCI Express 总 线 理解 的 逐渐 深入 ， 最 终 设 计 出 一 个 具有 和 较 高 性 能 的 Cornus 未 2 备 感 欣 奈 。 
此 外 杨 强 浩 先生 也 参与 了 Capric 和 Cornus 卡 的 原始 设计 与 方案 制定 ， 在 此 对 他 及 他 的 团队 
在 这 个 过 程 中 给 予 的 帮助 表示 感谢 ， 我 们 也 一 道 通过 这 两 块 卡 的 制作 进一步 领略 了 PCI Ex- 
press 总 线 的 技术 之 美 。 

一 个 优秀 的 协议 ， 从 制定 到 广大 技术 人 员 理 解 其 精妙 之 处 ， 再 到 协议 应 用 到 一 个 个 优秀 
产品 中 ， 需 要 更 多 的 人 参与 、 投 入 、 实 践 ， 这 也 是 编写 此 书 最 大 的 动力 源 果 。 本 书 的 完成 与 
我 的 妻子 范 淑琴 的 激励 直接 相关 ，Capricornus 也 是 她 的 星座 。 还 需要 感谢 本 书 的 编辑 车 忱 与 
策划 时 静 ， 正 是 他 们 的 努力 使 得 本 书 提前 问 址 。 

对 本 书 尚 留 疑问 的 读者 ， 可 通过 我 的 邮箱 sailing.w@ gmail.com 与 我 联系 。 最 后 希望 这 本 
书 对 您 有 所 帮助 。 
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第 | 篇 PClI 体 系 结构 概述 


PCI (Peripheral Component Interconnect) 总 线 的 诞生 与 PC (Personal Computer) 的 莲 勃 
发 展 密切 相关 。 在 处 理 器 体系 结构 中 ，PCI 总 线 属于 局 部 总 线 (Local Bus) 。 局 部 总 线 作为 
系统 总 线 的 延伸 ， 其 主要 功能 是 连接 外 部 设备 。 

处 理 器 主 频 的 不 断 提升 ， 要 求 速度 更 快 、 带 宽 更 高 的 局 部 总 线 。 起 初 PC 使 用 8 位 的 XT 
总 线 作为 局 部 总 线 ， 很 快 升级 到 16 位 的 ISA (Industry Standard Architecture) 总 线 ， 并 逐步 
发 展 到 32 位 的 EISA (Extended Industry Standard Architecture ) 、VESA ( Video Electronics 
Standards Association) 和 MCA (Micro Channel Architecture) 总 线 。 

PCI 总 线 规范 在 20 世纪 90 年 代 提 出 。 这 条 总 线 推出 之 后 ， 很 快 得 到 了 各 大 主流 半导体 
厂商 的 认同 ， 并 迅速 统一 了 当时 并 存 的 各 类 局 部 总 线 ，EISA、VESA 等 其 他 32 位 总 线 很 快 
就 被 PCI 总 线 淘汰 了 。 从 那 时 起 ，PCI 总 线 一 直 在 处 理 器 体系 结构 中 占有 重要 地 位 。 

在 此 后 相当 长 的 一 段 时 间 里 ， 处 理 器 系统 的 大 多 数 外 部 设备 都 是 直接 或 者 间接 地 与 PCI 
总 线 相 连 。 即 使 目前 PCI Express 总 线 逐 步 取 代 PCI 总 线 成 为 PC 局 部 总 线 的 主流 ， 也 不 能 掩 
盖 PCI 总 线 的 光芒 。 从 软件 层面 上 看 ，PCI Express 总 线 与 PCI 总 线 基 本 兼容 ;从 硬件 层面 上 
看 ，PCI Express 总 线 在 很 大 程度 上 继承 了 PCI 总 线 的 设计 思路 。 因 此 PCI 总 线 依 然 是 软 硬 件 
工程 师 在 进行 处 理 需 系统 的 开发 与 设计 时 必须 掌握 的 一 条 局 部 总 线 。 

PCI 总 线 规范 由 Intel 的 IAL (JIntel Architecture Lab) 提出 ， 其 V1.0 规范 在 1992 年 6 月 
22 日 正式 发 布 。IAL 是 Intel 的 一 个 重要 实验 室 ，USB (Universal Serial Bus)、AGP (Accel- 
erated Graphics Port) 、PCI Express 总 线 规范 和 PC 的 南北 桥 结构 都 是 由 这 个 实验 室 提 出 的 。 

IAL 起 初 的 研究 领域 包括 硬件 和 软件 ,但 是 IAL 在 软件 领域 的 研究 遭 到 了 Microsoft 的 抵 
触 ，IAL 提出 的 许多 软件 规范 并 不 被 Microsoft 认可 ， 于 是 IAL 更 专注 硬件 领域 ,并 在 PC 体 
系 架构 上 取得 了 一 个 又 一 个 突破 。IAL 是 现代 PC 体系 架构 的 重要 奠基 者 。2001 年 ，IAL 由 
于 其 创始 人 的 离 去 而 临时 解散 。2005 年 ，Intel 重建 了 这 个 实验 室 。 

PCI 总 线 V1. 0 规范 仅 针 对 在 一 个 PCB (Printed Cireuit Board) 环境 内 的 器 件 之 间 的 互 
连 ， 而 1993 年 4 月 30 日 发 布 的 V2.0 规范 增加 了 对 PCI 插 槽 的 支持 。1995 年 6 月 1 日 ，PCI 
V2.1 总 线 规范 发 布 ， 这 个 规范 具有 里 程 碑 意义 。 正 是 这 个 规范 使 得 PCI 总 线 大 规模 普 
至 此 PCI 总 线 完 成 了 对 (上 E)ISA 和 MCA 总 线 的 替换 。 

至 1996 年 ，VESA 总 线 也 逐渐 离开 了 人 们 的 视线 ， 当 然 PCI 总 线 并 不 能 完全 提供 显卡 
所 需要 的 带宽 ， 真 正 蔡 代 VESA 总 线 的 是 AGP 总 线 。 随 后 PCISIG (PCI Special Interest 
Group) 陆续 发 布 了 PCI 总线 V2.2、V2.3 规范 ， 并 最 终 将 PCI 总 线 规范 定格 在 V3.0。 


除了 PCI 总 线 规范 外 ，PCISIG 还 定义 了 一 些 与 PCI 总 线 相 关 的 规范 ， 如 PCMCIA (Per- 
sonal Computer Memory Card International Association ) 规范 和 MiniPCI 规范 。 其 中 PCMCIA 规 
范 主要 针对 Laptop 应 用 ， 后 来 PCMCIA 升级 为 PC Card (Cardbus) 规范 ， 而 PC Card 又 升级 
为 ExpressCard 规范 。 

PC Card 规范 基于 32 位 、33MHz 的 PCI 总 线 ; 而 ExpressCard 规范 基于 PCI Express 和 
USB 2.0。 这 两 个 规范 都 在 Laptop 领域 中 获得 了 成 功 。 除 了 PCMCIA 规范 外 ，Mini PCI 总 线 
也 非常 流行 ， 与 标准 PCI 搬 槽 相 比 ，Mini PCI 插 槽 占用 面积 较 小 ， 适 用 于 一 些 对 尺寸 有 要 求 
的 应 用 。 

除了 以 上 规范 之 外 ，PCISIG 还 推出 了 一 系列 和 PCI 总 线 直接 相关 的 规范 。 如 PCI-to-PCI 
桥 规 范 、PCI 电源 管理 规范 、PCI 热 插 拔 规范 和 CompactPCI 总 线 规范 。 其 中 PCI-to-PCI 桥 规 
范 最 为 重要 ， 理 解 PCI-to-PCI 桥 是 理解 PCI 体系 结构 的 基础 ; 而 CompactPCI 总 线 规范 多 用 
于 具有 背 板 结构 的 大 型 系统 ， 并 支持 热 插 拔 。 

PCISIG 在 PCI 总 线 规范 的 基础 上 ， 进 一 步 提 出 PCI-X 规范 。 与 PCI 总 线 相 比 ，PCI-X 总 
线 规范 可 以 支持 133MHz、266MHz 和 533MHz 的 总 线 频率 ， 并 在 传送 规则 上 做 了 一 些 改动 。 
虽然 PCI-X 总 线 还 没有 得 到 大 规模 普及 就 被 PCI Express 总 线 替 代 ， 但 是 在 PCI-X 总 线 中 提 
出 的 许多 设计 思想 仍然 被 PCI Express 总 线 继承 。 

PCI 总 线 规范 是 Intel 对 PC 领域 做 出 的 一 个 巨大 贡献 。Intel 也 在 PCI 总 线 规范 中 留 下 了 
深 深 的 印记 ，PCI 总 线 规范 的 许多 内 容 都 与 基于 IA (Intel Architecture) 架构 的 x86 处 理 需 蜜 
切 相 关 。 但 是 这 并 不 妨碍 其 他 处 理 器 系统 使 用 PCI 总 线 ， 事 实 上 PCI 总 线 在 非 x86 处 理 器 系 
统 上 也 取得 了 巨大 的 成 功 。 目 前 绝 大 多 数 处 理 器 系统 都 使 用 PCIAPCI Express 总 线 连接 外 部 
设备 ， 特 别 是 一 些 通用 外 设 。 

随 着 时 间 的 推移 ，PCI 和 PCI-X 总 线 逐 步 遇 到 瓶颈 。PCI 和 PCI-X 总 线 使 用 单 端 并 行 信 
号 进行 数据 传递 ， 由 于 单 端 信号 容易 被 外 部 系统 干扰 ， 其 总 线 频率 很 难 进一步 提高 。 目 前 ， 
为 了 获得 更 高 的 总 线 频率 以 提高 总 线 带 宽 . 高 速 串 行 总 线 逐 步 奉 代 了 并 行 总 线 。PCI Express 
总 线 也 逐渐 蔡 代 PCI 总 线 成 为 主流 。 但 是 从 系统 软件 的 角度 上 看 ，PCI Express 总 线 仍然 基 
于 PCI 总 线 。 理 解 PCI Express 总 线 的 一 个 基础 是 深入 理解 PCI 总 线 ， 同 时 PCI Express 总 线 
也 继承 了 PCI 总 线 的 许多 概念 。 本 篇 将 详细 介绍 与 处 理 器 体系 结构 相关 的 一 些 必 备 的 PCI 总 
线 知 识 。 

为 简化 起 见 ， 本 篇 主要 介绍 PCI 总 线 的 32 位 地 址 模式 。 在 实际 应 用 中 ,使 用 64 位 地 址 
模式 的 PCI 设备 非常 少 。 而 且 在 PCI Express 总 线 逐 渐 取 代 PCI 总 线 的 大 趋势 之 下 ， 将 来 也 
很 难 会 有 更 多 的 使 用 64 位 地 址 的 PCI 设备 。 如 果 读 者 需要 掌握 PCI 总 线 的 64 位 地 址 模式 ， 
请 自行 阅读 PCI 总 线 的 相关 规范 。 实 际 上 ， 如 果 读 者 真正 掌握 了 PCI 总 线 的 32 位 地 址 模式 
之 后 ,理解 64 位 地 址 模式 并 不 困难 。 

为 节省 篇 幅 ， 下 文 将 PCI Express 总 线 简 称 为 PCle 总 线 ，PCI-to-PCI 桥 简称 为 PCI 桥 ， 
PCI Express-to-PCI 桥 简称 为 PCle 桥 ，Host-to-PCI 主 桥 简称 为 HOST 主 桥 。 值 得 注意 的 是 许 
多 书籍 将 HOST 主 桥 称 为 PCI 主 桥 或 者 PCI 总 线 控制 器 。 


第 1 介 PCI 总 线 的 基本 知识 


PCI 总 线 作 为 处 理 器 系统 的 局 部 总 线 ， 其 主要 目的 是 为 了 连接 外 部 设备 ， 而 不 是 作为 处 
理 器 的 系统 总 线 连接 Cache 和 主 存储 器 。 但 是 PCI 总 线 、 系 统 总 线 和 处 理 器 体系 结构 之 间 依 
然 存在 着 紧密 的 联系 。 

PCI 总 线 作 为 系统 总 线 的 延伸 ， 其 设计 考虑 了 许多 与 处 理 器 相关 的 内 容 ， 如 处 理 器 的 
Cache 共享 一 致 性 和 数据 完整 性 〈Data Consistency， 也 称 为 Memory Consistency) ， 以 及 如 何 
与 处 理 器 进行 数据 交换 等 一 系列 内 容 。 其 中 Cache 共享 一 致 性 和 数据 完整 性 是 现代 处 理 器 局 
部 总 线 的 设计 的 重点 和 难点 ， 也 是 本 书 将 重点 讲述 的 主题 之 一 。 

孤立 地 研究 PCI 总 线 并 不 可 取 ， 因 为 PCI 总 线 仅 是 处 理 器 系统 的 一 个 部 分 。 深 入 理解 
PCI 总 线 需 要 了 解 一 些 与 处 理 右 体系 结构 相关 的 知识 。 这 些 知识 是 本 书 侧重 描述 的 ， 同 时 也 
是 PCI 总 线 规范 忽略 的 内 容 。 脱 离 实 际 的 处 理 器 系统 ， 不 容易 也 不 可 能 深入 理解 PCI 总 线 
规范 。 

对 于 今天 的 读者 来 说 ，PCI 总 线 提出 的 许多 概念 略 显 过 时 ， 也 有 许多 不 足 之 处 。 但 是 在 
当年 ，PCI 总 线 与 之 前 存在 的 其 他 并 行 局 部 总 线 如 ISA、EISA 和 MCA 总 线 相 比 ， 具 有 许多 
突出 的 优点 ， 是 一 个 全 新 的 设计 。 

(1) PCI 总 线 空 间 与 处 理 器 空间 隔离 

PCI 设备 具有 独立 的 地 址 空间 ， 即 PCI 总 线 地 址 空间 ， 该 空间 与 存储 器 地 址 空间 通过 
HOST 主 桥 隔 离 。 处 理 央 需要 通过 HOST 主 桥 才能 访问 PCI 设备 ， 而 PCI 设备 需要 通过 HOST 
主 桥 才 能 访问 主 存储 器 。 在 HOST 主 桥 中 含有 许多 缓冲 ， 这 些 缓冲 使 得 处 理 器 总 线 与 PCI 总 
线 工作 在 各 自 的 时 钟 频率 中 ， 互 不 干扰 。HOST 主 桥 的 存在 也 使 得 PCI 设备 和 处 理 器 可 以 方 
便 地 共享 主 存储 器 资源 。 

处 理 需 访问 PCI 设备 时 ， 必 须 通过 HOST 主 桥 进 行 地 址 转换 ， 而 PCI 设备 访问 主 存储 器 
时 ， 也 需要 通过 HOST 主 桥 进行 地 址 转换 。HOST 主 桥 的 一 个 重要 作用 就 是 将 处 理 器 访问 的 
存储 器 地 址 转换 为 PCI 总 线 地 址 。PCI 设备 使 用 的 地 址 空间 是 属于 PCI 总 线 域 的 ， 这 与 存储 
大 地 址 空间 不 同 。 

x86 处 理 器 对 PCI 总 线 域 与 存储 器 域 的 划分 并 不 明晰 ， 这 也 使 得 许多 程序 员 并 没有 准确 
地 区 分 PCI 总 线 域 地 址 空间 与 存储 器 域 地 址 空间 。 而 本 书 将 反复 强调 存储 器 地 址 和 PCI 总 线 
地 址 的 区 别 ， 因 为 这 是 理解 PCI 体系 结构 的 重要 内 容 。 

PCI 规范 并 没有 对 HOST 主 桥 的 设计 进行 约束 。 每 一 个 处 理 器 厂商 使 用 的 HOST 主 桥 ， 
其 设计 都 不 尽 相 同 。HOST 主 桥 是 联系 PCI 总 线 与 处 理 器 的 核心 部 件 ， 掌 握 HOST 主 桥 的 实 
现 机 制 是 深入 理解 PCI 体系 结构 的 前 提 。 

本 书 将 以 Freescale 的 PowerPC 处 理 器 和 Intel 的 x86 处 理 器 为 例 ， 说明 各 自 HOST 主 桥 
的 实现 方式 ， 值 得 注意 的 是 本 书 涉及 的 PowerPC 处 理 硕 仅 针对 Freescale 的 PowerPC 处 理 需 ， 
而 不 包含 IBM 的 Power 和 AMCC 的 PowerPC 处 理 器 。 而 且 如 果 没 有 特别 说 明 ， 本 书 中 涉及 的 
x86 处 理 器 特 指 Intel 的 处 理 器 ， 而 不 是 其 他 厂商 的 x86 处 理 兢 。 


(2) 可 扩展 性 

PCI 总 线 具 有 很 强 的 扩展 性 。 在 PCI 总 线 中 ，HOST 主 桥 可 以 直接 推出 一 条 PCI 总 线 ， 
这 条 总 线 也 是 该 HOST 主 桥 管理 的 第 一 条 PCI 总 线 ， 该 总 线 还 可 以 通过 PCI 桥 扩展 出 一 系列 
PCI 总 线 ， 并 以 HOST 主 桥 为 根 节点 ， 形 成 1 棵 PCI 总 线 树 。 这 些 PCI 总 线 都 可 以 连接 PCI 
设备 ， 但 是 在 1 棵 PCI 总 线 树 上 ,最 多 只 能 挂 接 256 个 PCLI 设备 (包括 PCI 桥 ) 。 

在 同一 条 PCI 总 线 上 的 设备 间 可 以 直接 通信 ， 而 并 不 会 影响 其 他 PCI 总 线 上 设备 间 的 数 
据 通信 。 隶 属于 同一 棵 PCI 总 线 树 上 的 PCI 设备 ， 也 可 以 直接 通信 ， 但 是 需要 通过 PCI 桥 进 
行 数据 转发 。 

PCI 桥 是 PCI 总 线 的 一 个 重要 组 成 部 件 ， 该 部 件 的 存在 使 得 PCI 总 线 极 具 扩 展 性 。PCI 
桥 也 是 有 别 于 其 他 局 部 总 线 的 一 个 重要 部 件 。 在 “以 HOST 主 桥 为 根 节 点 ”的 PCI 总 线 树 
中 ， 每 一 个 PCI 桥 下 也 可 以 连接 一 个 PCI 总 线 子 树 ，PCI 桥 下 的 PCI 总 线 仍 然 可 以 使 用 PCI 
桥 继续 进 行 总 线 扩展 。 

PCI 桥 可 以 管理 这 个 PCI 总 线 子 树 ，PCI 桥 的 配置 空间 含有 一 系列 管理 PCI 总 线 子 树 的 
配置 寄存 器 。 在 PCI 桥 的 两 端 ， 分 别 连 接 了 两 条 总 线 ， 分别 是 上 游 总 线 (Primary Bus) 和 下 
游 总 线 (Secondary Bus) 。 其 中 与 处 理 器 距离 较 近 的 总 线 被 称 为 上 游 总 线 ， 另 一 条 被 称 为 下 
游 总 线 。 这 两 条 总 线 间 的 通信 需要 通过 PCI 桥 进行 。PCI 桥 中 的 许多 概念 被 PCIe 总 线 采纳 ， 
理解 PCI 桥 也 是 理解 PCIe 体系 结构 的 基础 。 

(3) 动态 配置 机 制 

PCI 设备 使 用 的 地 址 可 以 根据 需要 由 系统 软件 动态 分 配 。PCI 总 线 使 用 这 种 方式 合理 地 
解决 了 设备 间 的 地 址 冲突 ， 从 而 实现 了 “ 即 插 即 用 ”功能 。 因 此 PCI 总 线 不 需要 使 用 ISA 
或 者 EISA 接口 卡 为 解决 地 址 冲突 而 使 用 的 硬件 跳 线 。 

每 一 个 PCI 设备 都 有 独立 的 配置 空间 ， 在 配置 空间 中 含有 该 设备 在 PCI 总 线 中 使 用 的 基 
地 址 ， 系 统 软件 可 以 动态 配置 这 个 基地 址 ， 从 而 保证 每 一 个 PCI 设备 使 用 的 物理 地 址 并 不 相 
同 。PCI 桥 的 配置 空间 中 含有 其 下 PCI 子 树 所 能 使 用 的 地 址 范围 。 

(4) 总 线 带宽 

PCI 总 线 与 之 前 的 局 部 总 线 相 比 ， 极 大 提高 了 数据 传送 带宽 ，32 位 /33 MHz 的 PCI 总 线 可 
以 提供 132 MB/s 的 峰值 带宽 ， 而 64 位 /66 MHz 的 PCI 总 线 可 以 提供 的 峰值 带宽 为 532 MB/s。 
虽然 PCI 总 线 所 能 提供 的 峰值 带宽 远 不 能 和 PCIe 总 线 相 比 ， 但 是 与 之 前 的 局 部 总 线 ISA、EISA 
和 MCA 总 线 相 比 ， 仍 然 具 有 极 大 的 优势 。 

ISA 总 线 的 最 高 主 频 为 8 MHz， 位 宽 为 16， 其 峰值 带宽 为 1 MB/s; EISA 总 线 的 最 高 主 
频 为 8. 33 MHz， 位 宽 为 32， 其 峰值 带宽 为 33 MB/s; 而 MCA 总 线 的 最 高 主 频 为 10 MHz， 最 
高 位 宽 为 32， 其 峰值 带宽 为 40 MB/s。PCI 总 线 提供 的 峰值 带宽 远 高 于 这 些 总 线 。 

(5) 共享 总 线 机 制 

PCI 设备 通过 仲裁 获得 PCI 总 线 的 使 用 权 后 ， 才 能 进行 数据 传送 ， 在 PCI 总 线 上 进行 数 
据 传 送 ， 并 不 需要 处 理 器 进行 干预 。 

PCI 总 线 仲裁 器 不 在 PCI 总 线 规范 定义 的 范围 内 ， 也 不 一 定 是 HOST 主 桥 和 PCI 桥 的 一 
部 分 。 虽 然 绝 大 多 数 HOST 主 桥 和 PCI 桥 都 包含 PCI 总 线 仲 裁 器 ， 但 是 在 某 些 处 理 器 系统 的 
设计 中 也 可 以 使 用 独立 的 PCI 总 线 仲裁 器 。 如 在 PowerPC 处 理 器 的 HOST 主 桥 中 含有 PCI 总 
线 仲 裁 器 ， 但 是 用 户 可 以 关闭 这 个 总 线 仲裁 器 ， 而 使 用 独立 的 PCI 总 线 仲裁 器 。 
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PCI 设备 使 用 共享 总 线 方式 进行 数据 传递 ， 在 同一 条 总 线 上 ， 所 有 PCI 设备 共享 同一 总 
线 带宽 ， 这 将 极 大 地 影响 PCI 总 线 的 利用 率 。 这 种 机 制 显然 不 如 PCIe 总 线 采 用 的 交换 结构 ， 
但 是 在 PCI 总 线 盛行 的 年 代 ， 半 导体 的 工艺 、 设 计 能 力 和 制作 成 本 决定 了 采用 共享 总 线 方式 
是 当时 的 最 优选 择 。 

(6) 中 断 机 制 

PCI 总 线 上 的 设备 可 以 通过 四 根 中 断 请 求 信号 INTA ~ D# 向 处 理 器 提交 中 断 请 求 。 与 ISA 
总 线 上 的 设备 不 同 ，PCI 总 线 上 的 设备 可 以 共享 这 些 中 断 请 求 信号 ， 不 同 的 PCI 设备 可 以 将 
这 些 中 断 请 求 信 号 “ 线 与 ”后 ， 与 中 断 控 制 器 的 中 断 请 求 引 脚 连接 。PCI 设备 的 配置 空间 记 
录 了 该 设备 使 用 这 四 根 中 断 请 求 信号 的 信息 。 

PCI 总 线 还 进一步 提出 了 MSI (Message Signal Interrupt) 机 制 ， 该 机 制 使 用 存储 器 写 总 
线 事务 传递 中 断 请 求 ， 并 可 以 使 用 x86 处 理 器 FSB (Front Side Bus) 总 线 提供 的 Interrupt 
Message 总 线 事务 ， 从 而 提高 了 PCI 设备 的 中 断 请 求 效率 。 

虽然 从 现代 总 线 技术 的 角度 来 看 ，PCI 总 线 仍 有 许多 不 足 之 处 ， 但 也 不 能 否认 PCI 总 线 
已 经 获得 了 巨大 的 成 功 。 不 仅 x86 处 理 器 将 PCI 总 线 作为 标准 的 局 部 总 线 连接 各 类 外 部 设 
备 ，PowerPC、MIPS 和 ARMS 处 理 器 也 将 PCI 总 线 作 为 标准 局 部 总 线 。 除 此 之 外 ， 基 于 PCI 
总 线 的 外 部 设备 ， 如 以 太 网 控制 器 、 声 卡 、 硬 盘 控制 器 等 ， 也 已 经 成 为 主流 。 


1.1 PCI 总线 的 组 成 结构 


如 上 文 所 述 ，PCI 总 线 作为 处 理 需 系统 的 局 部 总 线 ， 是 处 理 需 系统 的 一 个 组 成 部 件 ， 讲 
述 PCI 总 线 的 组 成 结构 不 能 离开 处 理 需 系统 这 个 大 环境 。 在 一 个 处 理 吉 系统 中 ， 与 PCI 总 线 
相关 的 模块 如 图 1-1 所 示 。 


处 理 器 


| 内 部 Cache | 


主 存储 器 
控制 器 
PCI 总 线 x0 


PCI 总 线 y0 


PCI 设 备 y01| | PCI 设 备 y02 PCI-to-ISA 桥 
PCI 总 线 x1 
ISA 总 线 
PCI 设 备 11 PCI 设 备 12 ISA 设 备 1 ISA 设 备 2 


图 1-1 基于 PCI 总 线 的 处 理 器 系统 


© 在 ARM 处 理 器 中 ， 使 用 SoC 平台 总 线 ， 即 AMBA 总 线 ， 连 接 片 内 设备 。 但 是 某 些 ARM 生产 厂商 ， 依 然 使 用 
AMBA-to-PCI 桥 推 出 PCI 总 线 ， 以 连接 PCI 设备 。 
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图 中 与 PCI 总 线 相 关 的 模块 包括 : HOST 主 桥 、PCI 总 线 、PCI 桥 和 PCI 设备。PCI 总 线 
由 HOST 主 桥 和 PCI 桥 推 出 ，HOST 主 桥 与 主 存储 器 控制 器 在 同一 级 总 线 上 ， 因 此 PCI 设备 
可 以 方便 地 通过 HOST 主 桥 访问 主 存储 器 ， 即 进行 DMA 操作 。 

值得 注意 的 是 ，PCI 设备 的 DMA 操作 需要 与 处 理 需 系统 的 Cache 进行 一 致 性 操作 ， 当 
PCI 设备 通过 HOST 主 桥 访问 主 存储 器 时 ，Cache 一 致 性 模块 将 进行 地 址 监听 ， 并 根据 监听 
的 结果 改变 Cache 的 状态 。 

在 一 些 简单 的 处 理 器 系统 中 ， 可 能 不 含有 PCI 桥 ， 此 时 所 有 PCI 设备 都 是 连接 在 HOST 
主 桥 推出 的 PCI 总 线 上 。 此 外 在 一 些 处 理 器 系统 中 可 能 含有 多 个 HOST 主 桥 ， 如 图 1-1 所 示 
的 处 理 器 系统 中 含有 HOST 主 桥 x 和 HOST 主 桥 Y。 


1.1.1 HOST 主 桥 


HOST 主 桥 是 一 个 很 特别 的 桥 片 ， 其 主要 功能 是 隔离 处 理 器 系统 的 存储 器 域 与 处 理 器 系 
统 的 PCI 总 线 域 ， 管 理 PCI 总 线 域 ， 并 完成 处 理 器 与 PCI 设备 间 的 数据 交换 。 处 理 器 与 PCI 
设备 间 的 数据 交换 主要 由 “处 理 器 访问 PCI 设备 的 地 址 空间 ”和 “PCI 设备 使 用 DMA 机 制 
访问 主 存 储 器 ”这 两 部 分 组 成 。 

为 简便 起 见 ， 下 面 将 处 理 器 系统 的 存储 器 域 简称 为 存储 器 域 ， 而 将 处 理 器 系统 的 PCI 总 
线 域 称 为 PCI 总 线 域 ， 存 储 器 域 和 PCI 总 线 域 的 详细 介绍 见 第 2. 1 节 。 值 得 注意 的 是 ， 在 
个 处 理 器 系统 中 ， 有 几 个 HOST 主 桥 ， 就 有 几 个 PCI 总 线 域 。 

HOST 主 桥 在 处 理 器 系统 中 的 位 置 并 不 相同 ， 如 PowerPC 处 理 器 将 HOST 主 桥 与 处 理 器 
集成 在 一 个 芯片 中 。 而 有 些 处 理 器 不 进行 这 种 集成 ， 如 x86 处 理 器 使 用 南北 桥 结 构 ， 处 理 器 
内 核 在 一 个 芯片 中 ， 而 HOST 主 桥 在 北桥 中 。 但 是 从 处 理 器 体系 结构 的 角度 看 ， 这 些 集成 方 
式 并 不 重要 。 

PCI 设备 通过 HOST 主 桥 访 问 主 存储 器 时 ， 需 要 与 处 理 器 的 Cache 进行 一 致 性 操作 ， 因 
此 在 设计 HOST 主 桥 时 需要 重点 考虑 Cache 一 致 性 操作 。 在 HOST 主 桥 中 ， 还 含有 许多 数据 
缓冲 ， 以 支持 PCI 总 线 的 预 读 机 制 。 

HOST 主 桥 是 联系 处 理 器 与 PCI 设备 的 桥梁 。 在 一 个 处 理 器 系统 中 ， 每 一 个 HOST 主 桥 
to Me ee na 个 PCI 总 线 域 。 
如 图 1-1 所 示 ，HOST 主 桥 x 之 下 的 PCI 设备 属于 PCI 总 线 x 域 , 而 HOST 主 桥 y 之 下 的 PCI 
设备 属于 PCI 总 线 y 域 。 在 这 棵 总 线 树 上 的 所 有 PCI 设备 的 配置 空间 都 由 HOST 主 桥 通过 配 

置 读 写 总 线 周 期 访问 。 

如 果 HOST 主 桥 支持 PCI V3.0 规范 的 Peer-to-Peer 数据 传送 方式 ， 那 么 分 属 不 同 PCI 总 
线 域 的 PCI 设备 可 以 直接 进行 数据 交换 。 如 图 1-1 所 示 ， 如 果 HOST 主 桥 y 支持 Peer-to-Peer 
数据 传送 方式 ，PCI 设备 y01 可 以 直接 访问 PCI 设备 01 或 者 PCI 设备 11， 而 不 需要 通过 处 
理 絮 的 参与 。 但 是 这 种 跨越 总 线 域 的 数据 传送 方式 在 PC 架构 中 并 不 常用 ， 在 PC 架构 中 ， 
重点 考虑 的 是 PCI 设备 与 主 存储 器 之 间 的 数据 交换 ， 而 不 是 PCI 设备 之 间 的 数据 交换 。 此 外 
在 PC 架构 中 ， 具 有 两 个 HOST 主 桥 的 处 理 器 系统 也 并 不 多 见 。 

在 PowerPC 处 理 需 中 ，HOST 主 桥 可 以 通过 设置 Inbound 寄存 涡 ， 使 得 分 属于 不 同 PCI 
总 线 域 的 设备 可 以 直接 通信 。 许 多 PowerPC 人 处理 器 都 具有 多 个 HOST 主 桥 ， 有 关 PowerPC 处 
理 器 使 用 的 HOST 主 桥 详 见 第 2.2 节 。 
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1.1.2 PCI 总 线 


在 处 理 器 系统 中 ， 含 有 PCI 总 线 和 PCI 总 线 树 这 两 个 概念 。 这 两 个 概念 并 不 相同 ， 在 一 
棵 PCI 总 线 树 中 可 能 具有 多 条 PCI 总 线 ， 而 具有 血缘 关系 的 PCI 总 线 组 成 一 棵 PCI 总 线 树 。 
如 在 图 1-1 所 示 的 处 理 器 系统 中 ，PCI 总 线 x 树 具 有 两 条 PCI 总 线 ， 分 别 为 PCI 总 线 x0 和 
PCI 总 线 x1。 而 PCI 总 线 y 树 中 仅 有 一 条 PCI 总 线 。 

PCI 总 线 由 HOST 主 桥 或 者 PCI 桥 管理 ， 用 来 连接 各 类 设备 ， 如 声卡 、 网 卡 和 IDE 接口 
卡 等 。 在 一 个 处 理 器 系统 中 ， 可 以 通过 PCI 桥 扩 展 PCI 总 线 ， 并 形成 具有 血缘 关系 的 多 级 
PCI 总 线 ， 从 而 形成 PCI 总 线 树 型 结构 。 在 处 理 器 系统 中 有 几 个 HOST 主 桥 ， 就 有 几 棵 这 样 
的 PCI 总 线 树 ， 而 每 一 棵 PCI 总 线 树 都 与 一 个 PCI 总 线 域 对 应 。 

与 HOST 主 桥 直 接连 接 的 PCI 总 线 通 常 被 命名 为 PCI 总 线 0。 考 虑 到 在 一 个 处 理 器 系统 
中 可 能 有 多 个 主 桥 ， 图 1-1 将 HOST 主 桥 x 推出 的 PCI 总 线 命名 为 x0 总 线 ， 而 将 PCI 桥 xl 
扩展 出 的 PCI 总 线 称 为 xl 总 线 ， 将 HOST 主 桥 y 推出 的 PCI 总 线 称 为 y0 ~ yn。 分 属 不 同 PCI 
总 线 树 的 设备 ， 其 使 用 的 PCI 总 线 地 址 空间 分 属 不 同 的 PCI 总 线 域 空间 。 


1.1.3 PCI 设备 


在 PCI 总 线 中 有 三 类 设备 : PCI 主 设备 、PCI 从 设备 和 桥 设 备 。 其 中 PCI 从 设备 只 能 被 
动 地 接收 来 自 HOST 主 桥 或 者 其 他 PCI 设备 的 读 写 请 求 ， 而 PCI 主 设备 可 以 通过 总 线 仲 裁 获 
得 PCI 总 线 的 使 用 权 ， 主 动 地 向 其 他 PCI 设备 或 者 主 存储 右 发 起 存储 器 读 写 请 求 。 而 桥 设备 
的 主要 作用 是 管理 下 游 的 PCI 总 线 ， 并 转发 上 下 游 总 线 之 间 的 总 线 事务 。 

一 个 PCI 设备 可 以 既是 主 设备 也 是 从 设备 ， 但 是 在 同一 个 时 刻 ， 这 个 PCI 设备 或 者 为 主 
设备 或 者 为 从 设备 。PCI 总 线 规范 将 PCI 主 从 设备 统称 为 PCI Agent 设备 。 在 处 理 需 系统 中 
常见 的 PCI 网 卡 、 显 卡 、 声 卡 等 设备 都 属于 PCI Agent 设备 。 

在 PCI 总 线 中 ，HOST 主 桥 是 一 个 特殊 的 PCI 设备 ,该 设备 可 以 获取 PCI 总 线 的 控制 权 
访问 PCI 设备 ， 也 可 以 被 PCI 设备 访问 。 但 是 HOST 主 桥 并 不 是 PCI 设备 。PCI 规范 也 没有 
规定 如 何 设计 HOST 主 桥 。 

在 PCI 总 线 中 ， 还 有 一 类 特殊 的 设备 ， 即 桥 设 备 。 它 包括 PCI 桥 、PCI-to-(E)ISA 桥 和 
PCI-to-Cardbus 桥 。 本 书 重点 介绍 PCI 桥 ， 而 不 介绍 其 他 桥 设 备 的 实现 原理 。PCI 桥 的 存在 
使 PCI 总 线 极 具 扩展 性 ， 处 理 器 系统 可 以 使 用 PCI 桥 进一步 扩展 PCI 总 线 。 

PCI 桥 的 出 现 使 得 采用 PCI 总 线 进 行 大 规模 系统 互 连 成 为 可 能 。 但 是 在 目前 已 经 实现 的 
大 规模 处 理 器 系统 中 ， 并 没有 使 用 PCI 总 线 进行 处 理 器 系统 与 处 理 器 系统 之 间 的 大 规模 互 
连 。 因 为 PCI 总 线 是 一 个 以 HOST 主 桥 为 根 的 树 型 结构 ， 使 用 主 从 架构 ， 因 而 不 易 实 现 多 处 
理 器 系统 间 的 对 等 互 连 。 

即便 如 此 PCI 桥 仍然 是 PCI 总 线 规范 的 精华 所 在 ， 掌 握 PCI 桥 是 深入 理解 PCI 体系 
结构 的 基础 。PCI 桥 可 以 连接 两 条 PCI 总线， 上游 PCI 总 线 和 下 游 PCI 总 线 ， 这 两 个 
PCI 总 线 属于 同一 个 PCI 总 线 域 ， 使 用 PCI 桥 扩展 的 所 有 PCI 总 线 都 同属 于 一 个 PCI 总 
线 域 。 

其 中 对 PCI 设备 配置 空间 的 访问 可 以 从 上 游 总 线 转发 到 下 游 总 线 ， 而 数据 传送 可 以 双方 
向 进行 。 在 PCI 总 线 中 ， 还 存在 一 种 非 透明 PCI 桥 ， 该 桥 片 不 是 PCI 总 线 规范 定义 的 标准 桥 


片 ， 但 是 适用 于 某 些 特殊 应 用 ， 在 第 2. 5 节 中 将 详细 介绍 这 种 桥 片 。 在 本 书 中 ， 如 不 特别 强 
调 ，PCI 桥 是 指 透明 桥 ， 透 明 桥 也 是 PCI 总 线 规范 定义 的 标准 桥 片 。 

PCI-to-(E)ISA 桥 和 PCI-to-Cardbus 桥 的 主要 作用 是 通过 PCI 总 线 扩展 (E)ISA 和 Cardbus 
总 线 。 在 PCI 总 线 推出 之 后 ，(E)ISA 总 线 并 没有 在 处 理 器 系统 中 立即 消失 ， 此 时 需要 使 用 
PCI-(E)ISA 桥 扩展 (E)1ISA 总 线 ， 而 使 用 PCI-to-Cardbus 桥 用 来 扩展 Cardbus 总 线 。 本 书 并 
不 关心 (EE)ISA 和 Cardbus 总 线 的 设计 与 实现 。 


1.1.4 HOST 处 理 器 


PCI 总 线 规定 在 同一 时 刻 内 ， 在 一 棵 PCI 总 线 树 上 有 且 只 有 一 个 HOST 处 理 需 。 这 个 
HOST 处 理 器 可 以 通过 HOST 主 桥 ， 发 起 PCI 总 线 的 配置 请 求 总 线 事务 ， 并 对 PCI 总 线 上 的 
设备 和 桥 片 进行 配置 。 

在 PCI 总线 中 ，HOST 处 理 器 是 一 个 较为 模糊 的 概念 。 在 SMP (symmetric multiprocess- 
ing) 处 理 器 系统 中 ， 所 有 CPU 都 可 以 通过 HOST 主 桥 访问 其 下 的 PCI 总 线 树 ， 这 些 CPU 都 
可 以 作为 HOST 处 理 器 。 但 是 值得 注意 的 是 ，PCI 总 线 树 的 实际 管理 者 是 HOST 主 桥 ， 而 不 
是 HOST 处 理 器 。 

在 HOST 主 桥 中 ， 设 置 了 许多 寄存 器 ，HOST 处 理 器 通过 操作 这 些 寄存 器 来 管理 PCI 设 
备 。 如 在 x86 处 理 器 的 HOST 主 桥 中 设置 了 0xCF8 和 0xCFC 这 两 个 IO 端口 访问 PCI 设备 的 
配置 空间 ， 而 PowerPC 处 理 器 的 HOST 主 桥 设置 了 CFG_ADDR 和 CFG_DATA 寄存 器 访问 
PCI 设备 的 配置 空间 。 值 得 注意 的 是 ， 在 PowerPC 处 理 器 中 并 没有 IO 端口 ， 因 此 使 用 存储 
器 映像 寻 址 方式 访问 外 部 设备 的 寄存 器 空间 。 


1.1.5 PCI 总 线 的 负载 


PCI 总 线 能 挂 接 的 负载 与 总 线 频率 相关 ， 其 中 总 线 频率 越 高 ， 能 挂 接 的 负载 越 少 。 下 面 
以 PCI 总 线 和 PCI-X 总 线 为 例 说 明 总 线 频率 、 峰 值 带宽 和 负载 能 力 之 间 的 关系 ， 如 表 1-1 
所 示 。 


表 1-1 PCI 总 线 频率 、 带 宽 与 负载 之 间 的 关系 
带 


总 线 类 型 总 线 频 率 / MHz 峰值 带宽 / (MB/s) 负载 能 力 
33 133 4 ~5 个 插 槽 

PCI 
66 266 1 ~2 个 插 槽 

66 266 4 个 搬 覃 

133 533 2 个 插 槽 

PCI-X - 
266 1066 1 个 插 槽 
533 2131 1 个 插 槽 


由 表 1-1 可 知 ，PCI 总 线 频率 越 高 ， 能 挂 接 的 负载 越 少 ， 但 是 整 条 总 线 能 提供 的 带宽 越 

大 。 值 得 注意 的 是 ，PCI-X 总 线 与 PCI 总 线 的 传送 协议 略 有 不 同 ， 因 此 66 MHz 的 PCI-X 总 线 

的 负载 数 较 大 。PCI-X 总 线 的 详细 说 明 见 第 1.5 节 。 当 PCI-X 总 线 频率 为 266 MHz 和 533 MHz 

时 ， 该 总 线 只 能 挂 接 一 个 PCI-X 插 模 。 在 PCI 总 线 中 ， 一 个 插 槽 相当 于 两 个 负载 ， 接 插件 

和 插 卡 各 算 为 一 个 负载 。 在 表 1-1 中 ，33 MHz 的 PCI 总 线 可 以 挂 接 4 ~5 个 插 槽 ， 相 当 于 
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直接 挂 接 8 ~ 10 个 负载 。 


1. 2 PCI 总 线 的 信号 定义 


PCI 总 线 是 一 条 共享 总 线 ， 条 PCI 总 线 上 可 以 挂 接 多 个 PCI 设备 。 这 些 PCI 设备 通 
过 一 系列 信号 与 PCI 总 线 相连 ， 这 些 信号 由 地 址 /数据 言 号 、 控 制 信号 、 仲 裁 信 号 、 中 断 信 
号 等 多 种 信号 组 成 。 

PCI 总 线 是 一 个 同步 总 线 ， 每 一 个 设备 都 具有 一 个 CLK 信号 ， 其 发 送 设 备 与 接收 设备 使 
用 这 个 CLK 信号 进行 同步 数据 传递 。PCI 总 线 可 以 使 用 33 MHz 或 者 66 MHz 的 时 钟 频率 ， 而 
PCI-X 总 线 可 以 使 用 133 MHz、266 MHz 或 者 533 MHz 的 时 钟 频率 。 

除了 RST#、INTA ~ D#、PME# 和 CLKRUN# 等 信号 之 外 ，PCI 设备 使 用 的 绝 大 多 数 信 号 
都 使 用 这 个 CLK 信号 进行 同步 。 其 中 RST# 是 复位 信号 ， 而 PCI 设备 使 用 INTA ~ D# 信 号 进 
行 中 断 请 求 。 本 书 并 不 详细 介绍 PME# 和 CLKRUN# 信 号 。 


1.2.1 地 址 和 数据 信号 


在 PCI 总线 中 ， 与 地 址 和 数据 相关 的 信号 如 下 所 示 。 

(1) AD[ 31:0] 信 号 

PCI 总 线 复 用 地 址 与 数据 信号 。PCI 总 线 事务 在 启动 后 的 第 一 个 时 钟 周期 传送 地 址 ， 这 
个 地 址 是 PCI 总 线 域 的 存储 器 地 址 或 者 IO 地 址 ;而 在 下 一 个 时 钟 周期 传送 数据 ?3 。 传 送 地 
址 的 时 钟 周 期 也 被 称 为 地 址 周期 ， 而 传送 数据 的 时 钟 周 期 也 被 称 为 数据 周期 。PCI 总 线 支持 
突 发 传送 ， 即 在 一 个 地 址 周期 之 后 ， 可 以 紧 跟 多 个 数据 周期 。 

(2) PAR 信号 

PCI 总 线 使 用 奇偶 校 验 机 制 ， 保 证 地 址 和 数据 信号 在 进行 数据 传递 时 的 正确 性 。PAR 信 
号 是 AD[31:0] 和 CZBE[3:0] 的 奇偶 校 验 信号 。PCI 主 设备 在 地 址 周期 和 数据 周期 中 ， 使 用 
该 信号 为 地 址 和 数据 信号 线 提供 奇偶 校 验 位 。 

(3) CA/BE[3:0]# 信 号 

PCI 总 线 复 用 命令 与 字 节 选 通 引 脚 。 在 地 址 周期 中 ，C/BE[3:0]# 信 号 表示 PCI 总 线 的 
命令 。 而 在 数据 周期 中 ，CZBE[3:0]# 引 脚 输出 字 节 选 通信 号 ， 其 中 C/BE3#、C/BE2#、 
C/BE1# 和 2、1 和 0 对 应 。 使 用 这 组 信号 可 以 对 PCI 设备 进行 单个 
字 节 、 字 和 双 字 访问 。PCI 总 线 通 过 C/BE[3:0]# 信 号 定义 了 多 个 总 线 事务 ， 这 些 总 线 事务 
如 表 1-2 所 示 。 


表 1-2 ”PCI 总 线 事务 


C/BE[3:0]# 命令 类 型 说 明 


中 断 响应 总 线 事务 读 取 当 前 挂 接 在 PCI 总 线 上 的 中 断 控 制 器 的 中 断 
0000 Interrupt Acknowledge 向 量 号 。 目 前 大 多 数 处 理 器 系统 的 中 断 控制 器 都 不 挂 接 在 PCI 总 线 
上 ， 因 此 这 种 总 线 事务 很 少 使 


” 双 地 址 周期 在 第 一 、 二 个 时 钟 周期 ， 都 传送 地 址 。 


( 续 ) 


C/BE[3:0]# 命令 类 型 说 明 
0001 Special Cycle HOST 主 桥 可 以 使 用 Special Cycle 事务 在 PCI 总 线 上 进行 信息 广播 
HOST 主 桥 可 以 使 用 该 总 线 事务 对 PCI 设备 的 IO 地 址 空间 进行 读 
和 TO 操作 。 目 前 多 数 PCI 设备 都 不 支持 IO 地 址 空间 ， 而 仅 支持 存储 器 地 
址 空间 ， 但 是 仍 有 部 分 PCI 设 备 同 时 包含 IO 地 址 空间 和 存储 器 地 址 
空间 
0011 /0 Write 对 PCI 总 线 的 10 地 址 空间 进行 写 操作 
0100 Reserved 保留 
0101 Reserved 保留 
Od a HOST 主 桥 可 以 使 用 该 总 线 事 务 对 PCI 设备 的 存储 器 空间 进行 读 操 
作 。PCI 设备 也 可 以 使 用 该 总 线 事务 读 取 处 理 器 的 存储 器 空间 
HOST 主 桥 互 0 PCI 设 备 的 存储 器 空间 进行 写 操 
0111 Memory Write 作 。PCI 设备 也 可 以 使 总 线 事务 向 处 理 器 的 存储 器 空间 进行 写 
操作 
1000 Reserved 保留 
1001 Reserved 保留 
HOST 主 桥 可 以 对 PCI 设 备 的 配置 空间 进行 读 操 作 。 每 一 个 PCI 设 
请 Confipeuration Read 备 都 有 独立 的 配置 空间 。 在 多 功能 PCI 设备 中 ， 每 一 个 子 设备 Func- 
Ce tion) 也 有 一 个 独立 的 配置 空间 。 该 总 线 事务 只 能 由 HOST 主 桥 发 出 ， 
PCI 桥 可 以 转发 该 总 线 事务 
1011 Configuration Write HOST 主 桥 对 PCI 设备 的 配置 空间 进行 写 操作 
HOST 主 桥 可 以 使 用 该 总 线 事务 对 PCI 设备 的 存储 器 空间 进行 多 行 
Tt Memory Read Multiple 读 操 作 ， 0 该 总 线 事务 的 主要 用 途 是 供 PCI 设备 使 
ee 和 ， 读 取 主 存储 器 。 读 操 作 与 Memory Read 操作 (C/BE [3: 0] 
ee 
PCI 总 线 支持 64 位 地 址 ， 处 理 器 或 者 其 他 PCI 设备 访问 64 位 PCI 总 
0 六 SS Eva 线 地 址 时 ， 必 须 使 用 双 地 址 周期 产生 64 位 的 PCI 总 线 地 址 。PCI 设备 
Se 使 用 DMA 读 写 方式 访问 64 位 的 存储 器 地 址 时 ， 也 可 以 使 用 该 总 线 
事务 
HOST 主 桥 可 以 使 用 该 总 线 事务 对 PCI 设备 的 存储 器 空间 进行 单行 
1110 Memory Read Line 读 操 作 ， 这 种 操作 并 不 多 见 。 该 总 线 事务 的 主要 用 途 是 供 PCI 设备 使 
， 读 取 主 存储 器 。 详 见 第 3. 4.5 节 
存储 器 写 并 无 效 操作 ， 与 存储 器 写 不 同 ，PCI 设备 可 以 使 用 该 总 线 
1111 Memory Write and Invalidate | 事务 对 主 存储 器 空间 进行 写 操作 。 该 总 线 事务 将 数据 写 入 主 存储 器 的 
同时 ， 将 对 应 Cache 行 中 的 数据 “使 无 效 ”， 详 见 第 3. 3. 4 节 


1.2.2 接口 控制 信号 


在 PCI 总 线 中 ， 接 口 控制 信号 的 主要 作用 是 保证 数据 的 正常 传递 
的 状态 ， 
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暂停 、 


终 终止 或 者 正常 帅 完 


当前 总 


线 事 务 ， 其 主要 信号 如 下 。 


， 并 根据 PCI 主 从 设备 


(1) FRAME# 信 和 号 

该 信号 指示 一 个 PCI 总 线 事务 的 开始 与 结束 。 当 PCI 设备 获得 总 线 的 使 用 权 后 ， 将 置 该 
言 号 有 效 ， 即 置 为 低 ， 启 动 PCI 总 线 事务 ， 当 结束 总 线 事务 时 ， 将 置 该 信号 无 效 ， 即 置 为 
高 。PCI 设备 (包括 HOST 主 桥 ) 只 有 通过 仲裁 获得 当前 PCI 总 线 的 使 用 权 后 ， 才 能 驱动 该 
信号。 

(2) IRDY# 信 号 

该 信号 由 PCI 主 设备 (包括 HOST 主 桥 ) 驱动 ， 该 信号 有 效 时 表示 PCI 主 设备 的 数据 已 经 
准备 完毕 。 如 果 当 前 PCI 总 线 事务 为 写 事务 ， 表 示 数 据 已 经 在 AD[31:0] 上 有 效 ; 如 果 为 读 事 
务 ， 表 示 PCI 目标 设备 已 经 准备 好 接收 缓冲 ， 目 标 设备 可 以 将 数据 发 送 到 AD[31:0] 上 。 

(3) TRDY# 信 号 

该 信和 号 由 目标 设备 驱动 ， 该 信号 有 效 时 表示 目标 设备 已 经 将 数据 准备 完毕 。 如 果 当 前 
PCI 总 线 事务 为 写 事 务 ， 表示 目标 设备 已 经 准备 好 接收 缓冲 ， 可 以 将 AD[31:0] 上 的 数据 写 
入 目标 设备 ， 如 果 为 读 事务 ， 表 示 PCI 设备 需要 的 数据 已 经 在 AD[31:0] 上 有 效 。 

该 信和 号 可 以 和 IRDY# 信 和 号 联合 使 用 ， 在 PCI 总 线 事 务 上 搬入 等 待 周期 ， 对 PCI 总 线 的 数 
据 传 送 进行 控制 。 

(4) STOP# 信 号 

该 信号 有 效 时 表示 目标 设备 请 求 主 设备 停止 当前 PCI 总 线 事务 。 一 个 PCI 总 线 事务 除了 
可 以 正常 结束 外 ， 目 标 设备 还 可 以 使 用 该 信号 终止 当前 PCI 总 线 事务 。 目 标 设备 可 以 根据 不 
同 的 情况 ， 要 求 主 设备 对 当前 PCI 总 线 事 务 进行 重 试 ( Retry) 、 断 连 ( Disconnect) ， 也 可 以 
向 主 设备 报告 目标 设备 天 折 (Target Abort) 。 

目标 设备 要 求 主 设备 Retry 和 Disconnect 并 不 意味 着 当前 PCI 总 线 事 务 出 现 错 误 。 当 日 
标 设 备 没有 将 数据 准备 好 时 ， 可 以 使 用 Retry 周期 使 主 设备 重 试 当前 PCI 总 线 事务 。 有 时 目 
标 设备 不 能 接收 来 自主 设备 较 长 的 Burst 操作 时 ， 可 以 使 用 Disconnect 周期 ， 将 一 个 较 长 的 
Burst 操作 分 解 为 多 个 Burst 操作 。 当 主 设备 访问 的 地 址 越界 时 ， 目 标 设 备 可 以 使 用 Discon- 
nect 周期 ， 终 止 主 设备 的 越界 访问 。 

而 Target Abort 表示 在 数据 传送 中 出 现 错误 。 处 理 器 系统 必须 对 这 种 情况 进行 处 理 。 在 
PCI 总 线 中 ， 出 现 Abort 一 般 意味 着 当前 PCI 总 线 域 出 现 了 较为 严重 的 错误 。 

(5) IDSEL 信号 

PCI 总 线 在 进行 配置 读 写 总 线 事务 时 ， 使 用 该 信号 选择 PCI 目标 设备 。 配 置 读 写 总 线 事 
务 与 存储 器 读 写 总 线 事务 在 实现 上 略 有 不 同 。 在 PCI 总 线 中 ,存储器 读 写 总 线 事务 使 用 地 址 
译 码 方式 访问 外 部 设备 。 而 配置 读 写 总 线 事 务 使 用 “ID 译 码 方式 ”访问 PCI 设备 ， 即 通过 
PCI 设备 的 总 线 号 、 设 备 号 和 寄存 器 号 访问 PCI 设备 的 配置 空间 。 

IDSEL 信和 号 与 PCI 设备 的 设备 号 相关 ， 相 当 于 PCI 设备 配置 空间 的 片 选 信号 ， 这 部 分 内 
容 将 在 第 2.4. 4 节 中 详细 介绍 。 

(6) DEVSEL# 信 号 

该 信号 有 效 时 表示 PCI 总 线 的 目标 设备 准备 好 ， 该 信号 与 TRDY# 信 号 的 不 同 之 处 在 于 
该 信号 有 效 仅 表示 目标 设备 已 经 完成 了 地 址 译 码 。 目 标 设备 使 用 该 信号 通知 PCI 主 设备 ， 其 
访问 对 象 在 当前 PCI 总 线 上 ， 但 是 并 不 表示 目标 设备 可 以 与 主 设备 进行 数据 交换 。 而 TRDY# 
信号 表示 数据 有 效 ，PCI 主 设备 可 以 向 目标 设备 写 人 或 者 从 目标 设备 读 取 数据 。 
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PCI 总 线 规范 根据 设备 的 译 码 速度 ， 将 PCI 设备 分 为 快速 、 中 速 和 慢 速 三 种 。 在 PCI 总 
线 上 还 有 一 种 特殊 的 设备 ， 即 负 向 译 码 设 备 ， 在 一 条 PCI 总 线 上 当 快 速 、 中 速 和 慢 速 三 种 设 
备 都 不 能 响应 PCI 总 线 事务 的 地 址 时 ， 负 向 译 码 设备 将 被 动 地 接收 这 个 PCI 总 线 事务 。 如 果 
在 PCI 主 设备 访问 的 PCI 总 线 上 ， 没 有 任何 设备 可 以 置 DEVSEL# 信 号 为 有 效 ， 主 设备 将 使 
用 Master Abort 周期 结束 当前 总 线 事务 。 

(7) LOCK# 信 号 

PCI 主 设备 可 以 使 用 该 信号 ， 将 目标 设备 的 某 个 存储 器 或 者 IO 资源 锁定 ， 以 禁止 其 他 
PCI 主 设备 访问 此 资源 ， 直 到 锁定 这 个 资源 的 主 设备 将 其 释放 。PCI 总 线 使 用 LOCK# 信 号 实 
现 LOCK 总 线 事务 ， 只 有 HOST 主 桥 、PCI 桥 或 者 其 他 桥 片 可 以 使 用 LOCK# 信 和 号。 在 PCI 总 
线 的 早期 版 本 中 ，PCI Agent 设备 也 可 以 使 用 LOCK# 信 和 号， 而 目前 PCI 总 线 使 用 LOCK# 信 号 
仅 是 为 防止 死 锁 和 向 前 兼容 。LOCK 总 线 事务 将 严重 影响 PCI 总 线 的 传送 效率 ， 在 实际 应 用 
中 ,设计 者 应 当 尽 量 避 免 使 用 该 总 线 事务 。 


1.2.3 ”仲裁 信号 


PCI 设备 使 用 该 组 信号 进行 总 线 仲裁 ， 并 获得 PCI 总 线 的 使 用 权 。 只 有 PCI 主 设备 需要 
使 用 该 组 信号 ， 而 PCI 从 设备 可 以 不 使 用 总 线 仲裁 信号 。 这 组 信号 由 REQ# 和 GNT# 组 成 。 
其 中 PCI 主 设备 的 REQ# 和 GNT# 信 号 与 PCI 总 线 的 仲裁 器 直接 相连 。 

PCI 主 设备 的 总 线 仲裁 信号 与 PCI 总 线 
仲裁 器 的 连接 关系 如 图 1-2 所 示 。 值 得 注意 
的 是 ， 每 一 个 PCI 主 设备 都 具有 独立 的 总 线 
仲裁 信号 ， 并 与 PCI 总 线 仲裁 器 一 一 相连 。 
而 总 线 仲裁 器 需要 保证 在 同一 个 时 间 段 内 - - - 

3 PCI 设 备 1 PCI 设 备 2 PCI 设 备 3 
只 有 一 个 PCI 设备 可 以 使 用 当前 总 线 。 | 

在 一 个 处 理 器 系统 中 ， 一 条 PCI 总 线 可 图 1-2 PCI 设 备 与 总 线 仲裁 器 的 连接 关系 
以 挂 接 PCI 主 设备 的 数目 ， 除 了 与 负载 能 力 相 关 之 外 ， 还 与 PCI 总 线 仲裁 器 能 够 提供 的 仲裁 
信和 号 数目 直接 相关 。 

在 一 棵 PCI 总 线 树 中 ， 每 一 条 PCI 总 线 上 都 有 一 个 总 线 仲 裁 器 。 一 个 处 理 器 系统 可 以 使 
用 PCI 桥 扩展 出 一 条 新 的 PCI 总 线 ， 这 条 新 的 PCI 总 线 也 需要 一 个 总 线 仲 裁 器 ， 通 常 在 PCI 
桥 中 集成 了 这 个 总 线 仲裁 器 。 多 数 HOST 主 桥 也 集成 了 一 个 PCI 总 线 仲 裁 右 ， 但 是 PCI 总 线 
也 可 以 使 用 独立 的 PCI 总 线 仲裁 器 。 

PCI 主 设备 使 用 PCI 总 线 进行 数据 传递 时 ， 需 要 首先 置 REQ# 信 号 有 效 ， 向 PCI 总 线 仲裁 
器 发 出 总 线 申 请 ， 当 PCI 总 线 仲裁 器 允许 PCI 主 设备 获得 PCI 总 线 的 使 用 权 后 ， 将 置 GNT# 信 
号 为 有 效 ， 并 将 其 发 送 给 指定 的 PCI 主 设备 。 而 PCI 主 设备 在 获得 总 线 使 用 权 之 后 ， 将 可 以 置 
FRAME# 信 和 号 有 效 ， 与 PCI 从 设备 进行 数据 通信 。 

1.2.4 中 断 请 求 等 其 他 信号 

PCI 总 线 提供 了 INTA#、INTB#、INTC# 和 INTD# 四 个 中 断 请 求 信 号 ，PCI 设备 借助 这 些 

中 断 请 求 信号 ,使 用 电 平 触发 方式 向 处 理 器 提交 中 断 请 求 。 当 这 些 中 断 请 求 信号 为 低 时 ， 


PCI 设备 将 向 处 理 器 提交 中 断 请 求 ; 当 处 理 器 执行 中 断 服务 程序 清除 PCI 设备 的 中 断 请 求 
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REQ]# 
REQ3# 


后 ，PCI 设备 将 该 信号 置 高 上 ， 结 束 当前 中 断 请 求 。 

PCI 总 线 规定 单 功能 设备 只 能 使 用 INTA# 信 号 ， 而 多 功能 设备 才能 使 用 INTB#/C#/D# 信 
号 。PCI 设备 的 这 些 中 断 请 求 信 号 可 以 通过 某 种 规则 进行 线 与 ， 之 后 与 中 断 控制 器 的 中 断 请 
求 信 号 线 相连 。 而 处 理 器 系统 需要 预先 知道 这 个 规则 ， 以 便 正确 处 理 来 自 不 同 PCI 设备 的 中 
断 请 求 ， 这 个 规则 也 被 称 为 中 断路 由 表 ， 有 关中 断路 由 表 的 详细 描述 见 第 1. 4. 2 节 。 

PCI 总 线 在 进行 数据 传递 过 程 时 ， 难 免 会 出 现 各 种 各 样 的 错误 ， 因 此 PCI 总 线 提供 了 一 
些 错误 信和 号， 如 PERR# 和 SERR# 信 号 。 其 中 当 PERR# 信 号 有 效 时 ， 表 示 数 据 传送 过 程 中 出 
现 奇偶 校 验 错 (Special Cycle 周期 除外 ) ; 而 当 SERR# 信 号 有 效 时 ， 表 示 当 前 处 理 带 系统 出 
现 了 三 种 错误 可 能 ,分别 为 地 址 奇偶 校 验 错 、 在 Special Cycle 周期 中 出 现 数据 奇偶 校 验 错 、 
系统 出 现 其 他 严重 错误 。 

如 果 PCI 总 线 支 持 64 位 模式 ， 还 需要 提供 AD[63:32]、C/BE[7:4]、REQ64、ACK64 
和 PAR64 这 些 信 号 。 此 外 PCI 总 线 还 有 一 些 与 JTAG 、SMBCLK 以 及 66MHz 使 能 相关 的 信 
号 ， 本 章 并 不 介绍 这 些 信 和 号 。 


1.3 PCI 总 线 的 存储 器 读 写 总 线 事务 


总 线 的 基本 任务 是 实现 数据 传送 ， 将 一 组 数据 从 一 个 设备 传送 到 另 一 个 设备 ， 当 然 总 线 
也 可 以 将 一 个 设备 的 数据 广播 到 多 个 设备 。 在 处 理 器 系统 中 ， 这 些 数据 传送 都 要 依赖 一 定 的 
规则 ，PCI 总 线 并 不 例外 。 

PCI 总 线 使 用 单 端 并 行 数据 线 ， 采 用 地 址 译 码 方式 进行 数据 传递 ， 而 采用 ID 译 码 方式 
进行 配置 信息 的 传递 。 其 中 地 址 译 码 方式 使 用 地 址 信号 ， 而 ID 译 码 方式 使 用 PCI 设备 的 ID 
号 ， 包 括 Bus Number、Device Number 、Function Number 和 Register Number。 下 面 将 以 图 1-1 
中 的 处 理 器 系统 为 例 ， 简 要 介绍 PCI 总 线 支 持 的 总 线 事务 及 其 传送 方式 。 

由 表 1-2 可 知 ，PCI 总 线 支持 多 种 总 线 事务 。 本 节 重 点 介绍 存储 器 读 写 总 线 事务 与 /0 
读 写 总 线 事 务 ， 并 在 第 2. 4 节 详 细 介绍 配置 读 写 总 线 事务 。 值 得 注意 的 是 ，PCI 设备 只 有 在 
系统 软件 初始 化 配置 空间 之 后 ， 才 能 够 被 其 他 主 设备 访问 。 

当 PCI 设备 的 配置 空间 被 初始 化 之 后 ， 该 设备 在 当前 的 PCI 总 线 树 上 将 拥有 一 个 独立 的 
PCI 总 线 地 址 空间 ， 即 BAR (Base Address Register) 寄存 器 所 描述 的 空间 ， 有 关 BAR 寄存 
硕 的 详细 说 明 见 第 2.3.2 节 。 

处 理 器 与 PCI 设备 进行 数据 交换 ， 或 者 PCI 设备 之 间 进 行 存储 器 数据 交换 时 ， 都 将 通过 
PCI 总 线 地 址 完成 。 而 PCI 设备 与 主 存储 器 进行 DMA 操作 时 ， 使 用 的 也 是 PCI 总 线 域 的 地 
址 ， 而 不 是 存储 器 域 的 地 址 ， 此 时 HOST 主 桥 将 完成 PCI 总 线 地 址 到 存储 器 域 地 址 的 转换 ， 
不 同 的 HOST 主 桥 进行 地 址 转换 时 使 用 的 方法 并 不 相同 。 

PCI 总 线 的 配置 读 写 总 线 事务 与 HOST 主 桥 与 PCI 桥 相 关 ， 因 此 读者 需要 了 解 HOST 主 
桥 和 PCI 桥 的 详细 实现 机 制 之 后 ， 才 能 深入 理解 这 部 分 内 容 。 在 第 2. 4 节 将 详细 介绍 这 些 内 
容 。 在 下 文中 ， 假 定 所 使 用 的 PCI 设备 的 配置 空间 已 经 被 系统 软件 初始 化 。 

PCI 总 线 支持 以 下 几 类 存储 器 读 写 总 线 事务 。 


@ INTx# 这 组 信号 为 开 漏 输出 ， 当 所 有 的 驱动 源 不 驱动 该 信号 时 ， 该 信号 由 上 拉 电 阻 驱动 为 高 。 
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(1) HOST 处 理 器 对 PCI 设备 的 BAR 空间 进行 数据 读 写 ，BAR 空间 可 以 使 用 存储 器 或 
者 IO 译 码 方式 。HOST 处 理 器 使 用 PCI 总 线 的 存储 器 读 写 总 线 事 务 和 IO 读 写 总 线 事务 访 
问 PCI 设备 的 BAR 空间 。 

(2) PCI 设备 之 间 的 数据 传递 。 在 PCI 总 线 上 的 两 个 设备 可 以 直接 通信 ， 如 一 个 PCI 设 
备 可 以 访问 另外 一 个 设备 的 BAR 空间 。 不 过 这 种 数据 传递 在 PC 处 理 器 系统 中 较 少 使 用 。 

(3) PCI 设 备 对 主 存储 器 进行 读 写 ， 即 DMA 读 写 操作 。DMA 读 写 操作 在 所 有 处 理 器 系 
统 中 都 较为 常用 ， 也 是 PCI 总 线 数据 传送 的 重点 。 在 多 数 情况 下 ，DMA 读 写 操作 结束 后 将 
伴随 着 中 断 的 产生 。PCI 设备 可 以 使 用 INTA#、INTB#、INTC# 和 INTD# 信 和 号 提交 中 断 请 求 ， 
也 可 以 使 用 MSI 机 制 提 交 中 断 请 求 。 


1.3.1 PCI 总 线 事务 的 时 序 


PCI 总 线 使 用 第 1. 2 节 所 述 的 信号 进行 数据 和 配置 信息 的 传递 ， 一 个 PCI 总 线 事务 的 基 
本 访问 时 序 如 图 1-3 所 示 ， 与 PCI 总 线 事 务 相 关 的 控制 信号 有 FRAME#、IRDY#、TRDY#、 
DEVSEIL# 等 其 他 信号。 
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图 1-3 PCI 总 线 事务 的 时 序 


当 一 个 PCI 主 设备 需要 使 用 PCI 总 线 时 ， 首 先 需 要 发 送 REQ# 信 号 ， 通 过 总 线 仲裁 获得 
总 线 使 用 权 ， 即 CNTH# 信 号 有 效 后 ， 使 用 以 下 步骤 完成 一 个 完整 PCI 总 线 事务 ， 对 目标 设备 
进行 存储 器 或 者 LO 地 址 空间 的 读 写 访问 。 

(1) 当 PCI 主 设备 获得 总 线 使 用 权 之 后 ， 将 在 CLK1 的 上 升 沿 置 FRAME# 信 号 有 效 ， 启 
动 PCI 总 线 事 务 。 当 PCI 总 线 事务 结束 后 ，FRAME# 信 和 号 将 被 置 为 无 效 。 

(2) PCI 总 线 周 期 的 第 一 个 时 钟 周期 (CLK1 的 上 升 沿 到 CLK2 的 上 升 沿 之 间 ) 为 地 址 
周期 。 在 地 址 周期 中 ，PCI 主 设备 将 访问 的 目的 地 址 和 总 线 命令 分 别 驱动 到 AD[31:0] 和 C《 
BE# 信 号 上 。 如 果 当 前 总 线 命令 是 配置 读 写 ， 那么 IDSEL 信和 号 线 也 被 置 为 有 效 ，IDSEL 信号 
与 PCI 总 线 的 AD[31: 11] 相 连 ， 详 见 第 2.4.4 节 。 

(3) 当 IRDY#、TRDY# 和 DEVSEL# 信 号 都 有 效 后 ， 总 线 事务 将 使 用 数据 周期 进行 数据 
传递 。 当 IRDY# 和 TRDY# 信 号 没有 同时 有 效 时 ，PCI 总 线 不 能 进行 数据 传递 ，PCI 总 线 使 用 
这 两 个 信号 进行 传送 控制 。 
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(4) PCI 总 线 支 持 突 发 周期 ， 因 此 在 地 址 周期 之 后 可 以 有 多 个 数据 周期 ， 可 以 传送 多 组 
数据 。 而 目标 设备 并 不 知道 突 发 周期 的 长 度 ， 如 果 目 标 设备 不 能 继续 接收 数据 时 ， 可 以 dis- 
connect ( 断 连 ) 当前 总 线 事 务 。 值 得 注意 的 是 ， 只 有 存储 器 读 写 总 线 事务 可 以 使 用 突 发 
周期 。 

一 个 完整 的 PCI 总 线 事务 远 比 上 述 过 程 复杂 得 多 ， 因 为 PCI 总 线 还 支持 许多 传送 方式 ， 
如 双 地 址 周期 、fast back-to-back (快速 背靠背 ) 、 插 入 等 待 状态 、 重 试 和 断 连 、 总 线 上 的 错 
误 处 理 等 一 系列 总 线 事务 。 本 书 不 一 一 介绍 这 些 传 送 方式 。 


1. 3.2 ”Posted 和 Non-Posted 传送 方式 


PCI 总 线 规定 了 两 类 数据 传送 方式 ， 分 别 是 Posted 和 Non-Posted 数据 传送 方式 。 其 中 使 
用 Posted 数据 传送 方式 的 总 线 事务 也 被 称 为 Posted 总 线 事 务 ， 而 使 用 Non-Posted 数据 传送 方 
式 的 总 线 事务 也 被 称 为 Non-Posted 总 线 事 务 。 

其 中 Posted 总 线 事务 指 PCI 主 设备 向 PCI 目标 设备 进行 数据 传递 时 ， 当 数据 到 达 PCI 桥 
后 ， 即 由 PCI 桥接 管 来 自 上 游 总 线 的 总 线 事务 ， 并 将 其 转发 到 下 游 总 线 。 采 用 这 种 数据 传送 
方式 ， 在 数据 还 没有 到 达 最 终 的 目的 地 之 前 ，PCI 总 线 就 可 以 结束 当前 总 线 事务 ， 从 而 在 一 
定 程度 上 解决 了 PCI 总 线 的 拥塞 问题 。 

而 Non-Posted 总 线 事 务 是 指 PCI 主 设备 向 PCI 目标 设备 进行 数据 传递 时 ， 数 据 必 须 到 达 
最 终 目的 地 之 后 ， 才 能 结束 当前 总 线 事 务 的 一 种 数据 传递 方式 。 
显然 采用 Posted 传送 方式 ， 当 这 个 Posted 总 线 事务 通过 某 条 PCI 总 线 后 ， 就 可 以 释放 
PCI 总 线 的 资源 ;而 采用 Non-Posted 传送 方式 ，PCI 总 线 在 没有 结束 当前 总 线 事务 时 必须 等 
待 。 这 种 等 待 将 严重 阻塞 当前 PCI 总 线 上 的 其 他 数据 传送 ， 因 此 PCI 总 线 使 用 Delayed 总 线 
事务 处 理 Non-Posted 数据 请 求 ， 使 用 Delayed 总 线 事 务 可 以 相对 缓解 PCI 总 线 的 拥塞 。De- 
layed 总 线 事务 的 详细 介绍 见 第 1.3.5 节 。 

PCI 总 线 规定 只 有 存储 器 写 请 求 (包括 存储 器 写 并 无 效 请 求 ) 可 以 采用 Posted 总 线 事 
务 ， 下 文 将 Posted 存储 器 写 请 求 简称 为 PMW (了 Posted Memory Write ) ， 而 存储 器 读 请 求 、 
1/0 读 写 请 求 、 配 置 读 写 请 求 只 能 采用 Non-Posted 总 线 事务 。 

下 面 以 图 1-1 的 处 理 器 系统 中 的 PCI 设备 11 向 存储 器 进行 DMA 写 操作 为 例 ， 说 明 Pos- 
ted 传送 方式 的 实现 过 程 。PCI 设备 11 进行 DMA 写 操作 时 使 用 存储 器 写 总 线 事务 ， 当 PCI 
设备 11 获得 PCI 总 线 xl 的 使 用 权 后 ， 将 发 送 存储 器 写 总 线 事务 到 PCI 总 线 x1。 当 PCI 桥 1 
发 现 这 个 总 线 事务 的 地 址 不 在 该 桥 管理 的 地 址 范围 内 将 首先 接收 这 个 总 线 事务 ， 并 结束 PCI 
总 线 xl 的 总 线 事 务 。 

此 时 PCI 总 线 xl 使 用 的 资源 已 被 释放 ，PCI 设 备 11 和 PCI 设 备 12 可 以 使 用 PCI 总 
线 xl 进行 通信 。PCI 桥 1 获得 PCI 总 线 x0 的 使 用 权 后 ， 将 转发 这 个 存储 器 写 总 线 事务 
到 PCI 总 线 x0， 之 后 HOST 主 桥 x 将 接收 这 个 存储 器 写 总 线 事 务 ， 并 最 终 将 数据 写 入 主 
存储 器 。 

由 以 上 过 程 可 以 发 现 ，Posted 数据 请 求 在 通过 PCI 总 线 之 后 ， 将 逐 级 释放 总 线 资源 ， 因 
此 PCI 总 线 的 利用 率 较 高 。 而 使 用 Non-Posted 方式 进行 数据 传送 的 处 理 过 程 与 此 不 同 ，Non- 
Posted 数据 请 求 在 通过 PCI 总 线 时 ， 并 不 会 及 时 释放 总 线 资 源 ， 从 而 在 某 种 程度 上 影响 PCI 
总 线 的 使 用 效率 和 传送 带宽 。 
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1.3.3 HOST 处理 器 访问 PCI 设备 


HOST 处 理 器 对 PCI 设备 的 数据 访问 主要 包含 两 方面 内 容 ， 一 方面 是 处 理 器 向 PCI 设备 
发 起 存储 器 和 IO 读 写 请 求 ; 另 一 方面 是 处 理 器 对 PCI 设备 进行 配置 读 写 。 

在 PCI 设备 的 配置 空间 中 ， 共 有 6 个 BAR 寄存 器 。 每 一 个 BAR 寄存 器 都 与 PCI 设备 使 
用 的 一 组 PCI 总 线 地 址 空间 对 应 ，BAR 寄存 器 记录 这 组 地 址 空间 的 基地 址 。 本 书 将 与 BAR 
寄存 器 对 应 的 PCI 总 线 地 址 空间 称 为 BAR 空间 ,在 BAR 空间 中 可 以 存放 IO 地 址 空间 ， 也 
可 以 存放 存储 器 地 址 空间 。 

PCI 设备 可 以 根据 需要 ， 有 选择 地 使 用 这 些 BAR 空间 。 值 得 注意 的 是 ,在 BAR 寄存 器 
中 存放 的 是 PCI 设备 使 用 的 “PCI 总 线 域 ”的 物理 地 址 ， 而 不 是 “存储 器 域 ” 的 物理 地 址 ， 
有 关 BAR 寄存 器 的 详细 介绍 见 第 2.3.2 节 。 

HOST 处 理 器 访问 PCI 设备 LO 地 址 空间 的 过 程 ， 与 访问 存储 器 地 址 空间 略 有 不 同 。 有 
些 处 理 器 ， 如 x86 处 理 器 ， 具 有 独立 的 VO 地 址 空间 。x86 处 理 器 可 以 将 PCI 设备 使 用 的 
IZO 地 址 映射 到 存储 需 域 的 IO 地 址 空间 中 ， 之 后 处 理 器 可 以 使 用 IN、OUT 等 指令 对 存储 器 
域 的 ZO 地 址 进行 访问 ， 然 后 通过 HOST 主 桥 将 存储 器 域 的 VO 地 址 转换 为 PCI 总 线 域 的 
IZ0 地 址 ， 最 后 使 用 PCI 总 线 的 IO 总 线 事务 对 PCI 设备 的 IO 地 址 进行 读 写 访问 。 在 x86 
处 理 器 中 ， 存 储 絮 域 的 VO 地 址 与 PCI 总 线 域 的 0 地 址 相同 。 

对 于 有 些 没有 独立 IYO 地 址 空间 的 处 理 器 ， 如 PowerPC 处 理 器 ， 需 要 在 HOST 主 桥 初始 
化 时 ,将 PCI 设备 使 用 的 IO 地 址 空间 映射 为 处 理 器 的 存储 器 地 址 空间 。PowerPC 处 理 器 对 
这 段 “ 存 储 器 域 ” 的 存储 器 空间 进行 读 写 访问 时 ，HOST 主 桥 将 存储 器 域 的 这 段 存储 器 地 址 
转换 为 PCI 总 线 域 的 1/0 地 址 ， 然 后 通过 PCI 总 线 的 1/0 总 线 事务 对 PCI 设备 的 1/0 地 址 进 
行 读 写 操作 。 

在 PCI 总 线 中 ， 存 储 器 读 写 事务 与 0 读 写 事务 的 实现 较为 类 似 。 首 先 HOST 处 理 器 在 
初始 化 时 ， 需 要 将 PCI 设备 使 用 的 BAR 空间 映射 到 “存储 器 域 ” 的 存储 器 地 址 空间 。 之 后 
处 理 器 通过 存储 器 读 写 指令 访问 “存储 器 域 ”的 存储 器 地 址 空间 ，HOST 主 桥 将 “存储 器 
域 ”的 读 写 请 求 翻译 为 PCI 总 线 的 存储 絮 读 写 总 线 事 务 之 后 ， 再 发 送 给 目标 设备 。 

值得 注意 的 是 存储 器 域 和 PCI 总 线 域 的 概念 。PCI 设备 能 够 直接 使 用 的 地 址 是 PCI 总 线 
域 的 地 址 ， 在 PCI 总 线 事务 中 出 现 的 地 址 也 是 PCI 总 线 域 的 地 址 ;而 处 理 右 能 够 直接 使 用 的 
地 址 是 存储 器 域 的 地 址 。 理 解 存储 器 域 与 PCI 总 线 域 的 区 别 对 于 理解 PCI 总 线 至 关 重要 ,在 
第 2. 1 节 将 专门 讨论 这 两 个 概念 。 

以 上 对 PCI 总 线 的 存储 器 与 [0O 总 线 事 务 的 介绍 并 没有 考虑 PCI 桥 的 存在 ， 如 果 将 PCI 

桥 考 虑 进来 ， 情 况 将 略微 复杂 。 下 面 将 以 图 1-1 为 例 说 明 处 理 器 如 何 通过 HOST 主 桥 和 PCI 
桥 1 对 PCI 设备 11 进行 存储 器 读 写 操作 。 当 处 理 器 对 PCI 设备 11 进行 存储 器 写 操作 时 ， 这 
些 数据 需要 通过 HOST 主 桥 x 和 PCI 桥 xl ， 最 终 到 达 PCI 设备 11 ， 其 访问 步骤 如 下 。 值 得 注 
意 的 是 ， 以 下 步 又 忽略 PCI 总 线 的 仲裁 过 程 。 
(1) 首先 处 理 器 将 要 传递 的 数据 放 入 通用 寄存 器 中 ， 之 后 向 PCI 设备 11 映射 到 的 存储 
器 域 的 地 址 进行 写 操作 。 值 得 注意 的 是 ， 处 理 絮 并 不 能 直接 访问 PCI 设备 11 的 PCI 总 线 地 
址 空间 ， 因 为 这 些 地 址 空间 是 属于 PCI 总 线 域 的 ， 处 理 器 所 能 直接 访问 的 空间 是 存储 器 域 的 
地 址 空间 。 处 理 需 必须 通过 HOST 主 桥 将 存储 器 域 的 数据 访问 转换 为 PCI 总 线 事务 才能 对 
16 


PCI 总 线 地 址 空间 进行 访问 。 

(2) HOST 主 桥 x 接收 来 自 处 理 器 的 存储 器 写 请 求 ， 之 后 处 理 器 结束 当前 存储 絮 写 操 
作 ， 释 放 系 统 总 线 。HOST 主 桥 x 将 存储 器 域 的 存储 器 地 址 转换 为 PCI 总 线 域 的 PCI 总 线 地 
址 。 并 向 PCI 总 线 x0 发 起 PCI 写 请 求 总 线 事务 。 值 得 注意 的 是 ， 虽然 在 许多 处 理 器 系统 中 ， 
存储 器 地 址 和 PCI 总 线 地 址 完全 相等 ,但 其 含义 并 不 相同 。 

(3) PCI 总线 x0 上 的 PCI 设备 01、PCI 设备 02 和 PCI 桥 1 将 同时 监听 这 个 PCI 写 总 线 
事务 。 最 后 PCI 桥 xl 接收 这 个 写 总 线 事务 ， 并 结束 来 自 PCI 总 线 x0 的 PCI 总 线 事务 。 之 后 
PCI 桥 xl 向 PCI 总 线 xl 发 起 新 的 PCI 总 线 写 总 线 事务 。 

(4) PCI 总 线 xl 上 的 PCI 设备 11 和 PCI 设备 12 同时 监听 这 个 PCI 写 总 线 事 务 。 最 后 
PCI 设备 11 通过 地 址 译 码 方式 接收 这 个 写 总 线 事务 ， 并 结束 来 自 PCI 总 线 xl 上 的 PCI 总 线 
事务 。 

由 以 上 过 程 可 以 发 现 ， 由 于 存储 器 写 总 线 事务 使 用 Posted 传送 方式 ， 因 此 数据 通过 PCI 
桥 后 都 将 结束 上 一 级 总 线 的 PCI 总 线 事务 ， 从 而 上 一 级 PCI 总 线 可 以 被 其 他 PCI 设备 使 用 。 
如 果 使 用 Non-Posted 传送 方式 ， 直 到 数据 发 送 到 PCI 设备 11 之 后 ，PCI 总 线 xl 和 x0 才能 
次 释放 ， 从 而 在 某 种 程度 上 将 造成 PCI 总 线 的 拥塞 。 

处 理 器 对 PCI 设备 11 进行 0 读 写 操作 和 存储 器 读 操 作 时 只 能 采用 Non-Posted 方式 进 
行 ， 与 Posted 方式 相 比 ， 使 用 Non-Posted 方式 ， 当 数据 到 达 目 标 设 备 后 ， 目 标 设备 需要 向 主 
设备 发 出 “回应 ?3?”， 当 主 设备 收 到 这 个 “回应 ”后 才能 结束 整个 总 线 事务 。 本 节 不 再 讲述 
处 理 器 如 何 对 PCI 设备 进行 /VO 写 操作 ， 请 读者 思考 这 个 过 程 。 

处 理 器 对 PCI 设备 11 进行 存储 器 读 时 ， 这 个 读 请 求 需要 首先 通过 HOST 主 桥 x 和 PCI 
桥 xl 到 达 PCI 设备， 之 后 PCI 设备 将 读 取 的 数据 再 次 通过 PCI 桥 xl 和 HOST 主 桥 x 传递 给 
HOST 处 理 器 ， 其 步骤 如 下 所 示 。 我 们 首先 假设 PCI 总 线 没有 使 用 Delayed 传送 方式 处 理 
Non-Posted 总 线 事务 ， 而 是 使 用 纯粹 的 Non-Posted 方式 。 

(1) 首先 处 理 器 准备 接收 数据 使 用 的 通用 寄存 器 ， 之 后 向 PCI 设备 11 映射 到 的 存储 器 
域 的 地 址 进行 读 操作 。 

(2) HOST 主 桥 x 接收 来 自 处 理 器 的 存储 器 读 请 求 。HOST 主 桥 x 进行 存储 器 地 址 到 PCI 
总 线 地 址 的 转换 ， 之 后 向 PCI 总 线 x0 发 起 存储 器 读 总 线 事务 。 

(3) PCI 总 线 x0 上 的 PCI 设备 01、PCI 设备 02 和 PCI 桥 xl 将 监听 这 个 存储 器 读 请 求 ， 
之 后 PCI 桥 1 接收 这 个 存储 器 读 请 求 。 然 后 PCI 桥 xl 向 PCI 总 线 xl 发 起 新 的 PCI 总 线 读 
请 求 。 

(4) PCI 总 线 x1 上 的 PCI 设备 11 和 PCI 设备 12 监听 这 个 PCI 读 请 求 总 线 事 务 。 最 
后 PCI 设备 11 接收 这 个 存储 器 读 请 求 总 线 事务 ， 并 将 这 个 读 请 求 总 线 事务 转换 为 存储 
器 读 完成 总 线 事务 之 后 ， 将 数据 传送 到 PCI 桥 xl ， 并 结束 来 自 PCI 总 线 xl 上 的 PCI 总 
线 事务 。 

(5) PCI 桥 xl 将 接收 到 的 数据 通过 PCI 总 线 x0， 继 续 上 传 到 HOST 主 桥 x， 并 结束 PCI 
总 线 x0 上 的 PCI 总 线 事务 。 


| 


@ 如 果 是 存储 器 、L/O 读 或 者 配置 读 总 线 


和 务 ， 这 个 回应 包含 数据 ; 如 果 是 IO 写 或 者 配置 写 ， 这 个 回应 不 包含 
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(6) HOST 主 桥 x 将 数据 传递 给 处 理 器 ， 最 终结 束 处 理 器 的 存储 器 读 操 作 。 
显然 这 种 方式 与 Posted 传送 方式 相 比 ，PCI 总 线 的 利用 率 较 低 。 因 为 只 要 HOST 处 理 器 
没有 收 到 来 自 目标 设备 的 “回应 ”， 那 么 HOST 处 理 器 到 目标 设备 的 传送 路 径 上 使 用 的 所 有 
PCI 总 线 都 将 被 阻塞 。 因 而 PCI 总 线 x0 和 xl 并 没有 被 充分 利用 。 

由 以 上 例子 ， 可 以 发 现 只 有 “ 读 完成 ”依次 通过 PCI 总 线 x1 和 x0 之 后 ， 存 储 器 读 总 
线 事务 才 不 继续 占用 PCI 总 线 xl 和 x0 的 资源 ， 显 然 这 种 数据 传送 方式 并 不 合理 。 因 此 
PCI 总 线 使 用 Delayed 传送 方式 解决 这 个 总 线 拥塞 问题 ， 有 关 Delayed 传送 方式 的 实现 机 制 
见 第 1.3.5 节 。 


1.3.4 PCI 设备 读 写 主 存储 器 


PCI 设备 与 存储 器 直接 进行 数据 交换 的 过 程 也 被 称 为 DMA。 与 其 他 总 线 的 DMA 过 程 类 
似 ，PCI 设备 进行 DMA 操作 时 ， 需 要 获得 数据 传送 的 目的 地 址 和 传送 大 小 。 支 持 DMA 传递 
的 PCI 设备 可 以 在 其 BAR 空间 中 设置 两 个 寄存 器 ， 分 别 保存 这 个 目标 地 址 和 传送 大 小 。 这 
两 个 寄存 器 也 是 PCI 设备 DMA 控制 器 的 组 成 部 件 。 

值得 注意 的 是 ，PCI 设备 进行 DMA 操作 时 ， 使 用 的 目的 地 址 是 PCI 总 线 域 的 物理 地 址 ， 
而 不 是 存储 器 域 的 物理 地 址 ， 因 为 PCI 设备 并 不 能 识别 存储 器 域 的 物理 地 址 ， 而 仅 能 识别 
PCI 总 线 域 的 物理 地 址 。 

HOST 主 桥 负责 完成 PCI 总 线 地 址 到 存储 器 域 地 址 的 转换 。HOST 主 桥 需 要 进行 合理 设 
置 ， 将 存储 器 的 地 址 空间 映射 到 PCI 总 线 之 后 ，PCI 设备 才能 对 这 段 存 储 器 空间 进行 DMA 
操作 。PCI 设备 不 能 直接 访问 没有 经 过 主 桥 映 射 的 存储 器 空间 。 

许多 处 理 器 允许 PCI 设备 访问 所 有 存储 器 域 地址 空间 ， 但 是 有 些 处 理 需 可 以 设置 PCI 设 
备 所 能 访问 的 存储 器 域 地 址 空间 ， 从 而 对 存储 器 域 地 址 空间 进行 保护 。 例 如 PowerPC 处 理 器 
的 HOST 主 桥 可 以 使 用 Inbound 寄存 器 组 ， 设 置 PCI 设备 访问 的 存储 器 地 址 范围 和 属性 ， 只 
有 在 Inbound 寄存 器 组 映射 的 存储 器 空间 才能 被 PCI 设备 访问 ， 在 第 2. 2 节 将 详细 介绍 Pow- 
erPC 处 理 需 的 这 组 寄存 器 。 

综 上 所 述 ， 在 一 个 处 理 器 系统 中 ， 并 不 是 所 有 存储 器 空间 都 可 以 被 PCI 设备 访问 ， 只 
在 PCI 总 线 域 中 有 映像 的 存储 器 空间 才能 被 PCI 设备 访问 。 经 过 HOST 主 桥 映 射 的 存储 器 ， 
具有 两 个 “地 址 ”， 一 个 是 在 存储 器 域 的 地 址 ， 一 个 是 在 PCI 总 线 域 的 PCI 总 线 地 址 。 当 处 
理 器 访问 这 段 存 储 器 空间 时 ， 使 用 存储 器 地 址 ; 而 PCI 设备 访问 这 段 内 存 时 ,使 用 PCI 总 线 
地 址 。 在 多 数 处 理 器 系统 中 ， 存 储 器 地 址 与 PCI 总 线 地 址 相同 ， 但 是 系统 程序 员 需 要 正确 理 
解 这 两 个 地 址 的 区 别 。 

下 面 以 PCI 设备 11 向 主 存储 器 写 数据 为 例 ， 说 明 PCI 设备 如 何 进 行 DMA 写 操作 。 

(1) 首先 PCI 设备 11 将 存储 器 写 请 求 发 向 PCI 总 线 x1， 注 意 这 个 写 请 求 使 用 的 地 址 是 
PCI 总 线 域 的 地 址 。 

(2) PCI 总 线 xl 上 的 所 有 设备 监听 这 个 请 求 ， 因 为 PCI 设备 11 是 向 处 理 右 的 存储 器 写 
数据 ， 所 以 PCI 总 线 xl 上 的 PCI Agent 设备 都 不 会 接收 这 个 数据 请 求 。 

(3) PCI 桥 xl 发 现 当 前 总 线 事务 使 用 的 PCI 总 线 地 址 不 是 其 下 游 设 备 使 用 的 PCI 总 线 地 
址 ， 则 接收 这 个 数据 请 求 ， 有 关 PCI 桥 的 Secondary 总 线 接收 数据 的 过 程 见 第 3.2.1 节 。 此 
时 PCI 桥 xl 将 结束 来 自 PCI 设备 11 的 Posted 存储 器 写 请 求 ， 并 将 这 个 数据 请 求 推 到 上 游 
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PCI 总 线 上 ， 即 PCI 总 线 x0 上 。 

(4) PCI 总 线 x0 上 的 所 有 PCI 设备 包括 HOST 主 桥 将 监听 这 个 请 求 。PCI 总 线 x0 上 的 
PCI Agent 设备 也 不 会 接收 这 个 数据 请 求 ， 此 时 这 个 数据 请 求 将 由 HOST 主 桥 x 接收 ， 并 结 
束 PCI 桥 xl 的 Posted 存储 器 写 请 求 。 

(5) HOST 主 桥 x 发 现 这 个 数据 请 求 发 向 存储 器 ， 则 将 来 自 PCI 总 线 x0 的 PCI 总 线 地 址 
转换 为 存储 需 地 址 ， 之 后 通过 存储 器 控制 器 将 数据 写 和 存储器， 完成 PCI 设备 的 DMA 写 


PCI 设备 进行 DMA 读 过 程 与 DMA 写 过 程 较为 类 似 。 不 过 PCI 总 线 的 存储 器 读 总 线 事务 
只 能 使 用 Non-Posted 总 线 事 务 ， 其 过 程 如 下 。 

(1) 首先 PCI 设备 11 将 存储 器 读 请 求 发 向 PCI 总 线 xl 。 

(2) PCI 总 线 xl 上 的 所 有 设备 监听 这 个 请 求 ， 因 为 PCI 设备 11 是 从 存储 器 中 读 取 数据 ， 
所 以 PCI 总 线 xl 上 的 设备 ， 如 PCI 设备 12， 不 会 接收 这 个 数据 请 求 。PCI 桥 xl 发 现下 游 
PCI 总 线 没 有 设备 接收 这 个 数据 请 求 ， 则 接收 这 个 数据 请 求 ， 并 将 这 个 数据 请 求 推 到 上 游 
PCI 总 线 上 ， 即 PCI 总 线 x0 上 。 

(3) PCI 总 线 x0 上 的 设备 将 监听 这 个 请 求 。PCI 总 线 x0 上 的 设备 也 不 会 接收 这 个 数据 
请 求 ， 最 后 这 个 数据 请 求 将 由 HOST 主 桥 x 接收。 

(4) HOST 主 桥 x 发 现 这 个 数据 请 求 是 发 向 主 存储 器 的 ， 则 将 来 自 PCI 总 线 x0 的 PCI 总 
线 地 址 转换 为 存储 器 地 址 ， 之 后 通过 存储 器 控制 器 将 数据 读 出 ， 并 转发 到 HOST 主 桥 x。 

(5) HOST 主 桥 x 将 数据 经 由 PCI 桥 xl 传递 到 PCI 设备 11，PCI 设备 11 接收 到 这 个 数 
据 后 结束 DMA 读 。 

以 上 过 程 仅 是 PCI 设备 向 存储 器 读 写 数据 的 一 个 简单 流程 。 如 果 考 虑 处 理 器 中 的 
Cache， 这 些 存 储 需 读 写 过 程 较为 复杂 。 

PCI 总 线 还 允许 PCI 设备 之 间 进 行 数据 传递 ，PCI 设备 间 的 数据 交换 较为 简单 。 在 实际 
应 用 中 ，PCI 设备 间 的 数据 交换 并 不 常见 。 下 面 以 图 1-1 为 例 ， 简 要 介绍 PCI 设备 11 将 数 
据 写 入 PCI 设备 01 的 过 程 ; 请 读者 自行 考虑 PCI 设备 11 从 PCI 设备 01 读 取 数据 的 过 程 。 

(1) 首先 PCI 设备 11 将 PCI 写 总 线 事务 发 向 PCI 总 线 xl 上 。PCI 桥 xl 和 PCI 设备 12 
同时 监听 这 个 写 总 线 事务 。 

(2) PCI 桥 xl 将 接收 这 个 PCI 写 请 求 总 线 事务 ， 并 将 这 个 PCI 写 总 线 事务 上 推 到 PCI 总 
线 x0。 

(3) PCI 总 线 x0 上 的 所 有 设备 将 监听 这 个 PCI 写 总 线 事务 ， 最 后 由 PCI 设备 01 接收 这 
个 数据 请 求 ， 并 完成 PCI 写 事务 。 


1.3.5 Delayed 传送 方式 


如 上 所 述 ， 当 处 理 器 使 用 Non-Posted 总 线 周期 对 PCI 设备 进行 读 操作 ， 或 者 PCI 设备 使 
用 Non-Posted 总 线 事务 对 存储 器 进行 读 操 作 时 ， 如 果 数 据 没 有 到 达 目 的 地 ， 那 么 在 这 个 读 操 
作 路 径 上 的 所 有 PCI 总 线 都 不 能 被 释放 ， 这 将 严重 影响 PCI 总 线 的 使 用 效率 。 
为 此 PCI 桥 需 要 对 Non-Posted 总 线 事 务 进行 优化 处 理 ， 并 使 用 Delayed 总 线 事务 处 理 这 
些 Non-Posted 总 线 事务 ，PCI 总 线 规定 只 有 Non-Posted 总 线 事务 可 以 使 用 Delayed 总 线 事务 。 
PCI 总 线 的 Delay 总 线 事务 由 Delay 读 写 请 求 和 Delay 读 写 完成 总 线 事 务 组 成 ， 当 Delay 读 写 
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请 求 到 达 目 的 地 后 ， 将 被 转换 为 Delay 读 写 完成 总 线 事务 。 基 于 Delay 总 线 请 求 的 数据 交换 
如 图 1-4 所 示 。 


Non-Posted ”Non-Posted 
总 线 事务 、、 ,7 ”总线 事 务 
~ Ca 
、 ap 
We 人 

SR 土 /” , ,Non-Posted 
Retry 周 期 、、、、 ,总线 完成 
Na 一 一 一 / 
让 2 
PCI 设 备 中 站 、[ PCr 桥 1 | 。“|_PCI 设 备 02 


Delayed _ 
总 线 请 求 “一 -| 


~ 六 区 Delayed 
-一 ”总 线 完 成 


图 1-4 基于 Delayed 总 线 请 求 的 数据 交换 


假设 处 理 器 通过 存储 器 读 、LO 读 写 或 者 配置 读 写 访问 PCI 设备 22 时， 首先 经 过 HOST 
主 桥 进行 存储 器 域 与 PCI 总 线 域 的 地 址 转换 ， 并 由 HOST 主 桥 发 起 PCI 总 线 事务 ， 然 后 通过 
PCI 桥 1、2， 最终 到 达 PCI 设备 22。 其 详细 步骤 如 下 。 

(1) HOST 主 桥 完成 存储 器 域 到 PCI 总 线 域 的 转换 ， 然 后 启动 PCI 读 总 线 事务 。 

(2) PCI 桥 1 接收 这 个 读 总 线 事 务 ， 并 首先 使 用 Retry 周期 ， 使 HOST 主 桥 择 时 重新 发 
起 相同 的 总 线 周 期 。 此 时 PCI 桥 1 的 上 游 PCI 总 线 将 被 释放 。 值 得 注意 的 是 PCI 桥 并 不 会 每 
一 次 都 使 用 Retry 周期 ， 使 上 游 设 备 择 时 进行 重 试 操作 。 在 PCI 总 线 中 ， 有 一 个 “16 Clock” 
原则 ， 即 FRAME# 信 号 有 效 后 ， 必 须 在 16 个 时 钟 周 期 内 置 为 无 效 ， 如 果 PCI 桥 发 现 来 自 上 
游 设 备 的 读 总 线 事务 不 能 在 16 个 时 钟 周期 内 结束 时 ， 则 使 用 Retry 周期 终止 该 总 线 事务 。 

(3) PCI 桥 1 使 用 Delayed 总 线 请 求 继续 访问 PCI 设备 22。 

(4) PCI 桥 2 接收 这 个 总 线 请 求 ， 并 将 这 个 Delayed 总 线 请 求 继续 传递 。 此 时 PCI 桥 2 
也 将 首先 使 用 Retry 周期 ,使 PCI 桥 1 择 时 重新 发 起 相同 的 总 线 周期 。 此 时 PCI 桥 2 的 上 游 
PCI 总 线 被 释放 。 

(5) 这 个 数据 请 求 最 终 到 达 PCI 设备 22， 如 果 PCI 设备 22 没有 将 数据 准备 好 时 ， 也 可 
以 使 用 Retry 周期 ,使 PCI 桥 2 择 时 重新 发 起 相同 的 总 线 周 期 ， 如 果 数 据 已 经 准备 好 ，PCI 
设备 22 将 接收 这 个 数据 请 求 ， 并 将 这 个 Delayed 总 线 请 求 转换 为 Delayed 总 线 完成 事务 。 如 
果 Delayed 总 线 请 求 是 读 请 求 ， 则 Delayed 总 线 完 成 事务 中 含有 数据 ， 和 否则 只 有 完成 信息 ， 
而 不 包含 数据 。 

(6) Delayed 总 线 完 成 事务 将 “数据 或 者 完成 信息 ”传递 给 PCI 桥 2， 当 PCI 桥 1 重新 
发 出 Non-Posted 总 线 请 求 时 ，PCI 桥 2 将 这 个 “数据 或 者 完成 信息 ”传递 给 PCI 桥 1。 

(7) HOST 主 桥 重新 发 出 存储 器 读 总 线 事 务 时 ，PCI 桥 1 将 “数据 或 者 完成 信息 ”传递 
给 HOST 主 桥 ， 最 终 完成 整个 PCI 总 线 事务 。 

由 以 上 分 析 可 知 ，Delayed 总 线 周期 由 Delayed 总 线 请 求 和 Delayed 总 线 完成 两 部 分 组 
成 。 下 面 将 Delayed 读 请 求 总 线 事务 简称 为 DRR (Delayed Read Request) ，Delayed 读 完 成 总 
线 事 务 简称 为 DRC (Delayed Read Completion ) ; 而 将 Delayed 写 请 求 总 线 事务 简称 为 DWR 
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(Delayed Write Request) ，Delayed 写 完成 总 线 事务 简称 为 DWC (Delayed Write Completion ) 。 

PCI 总 线 使 用 Delayed 总 线 事务 ， 在 一 定 程度 上 可 以 提高 PCI 总 线 的 利用 率 。 因 为 在 进 
行 Non-Posted 总 线 事务 时 ，Non-Posted 请 求 在 通过 PCI 桥 之 后 ， 可 以 暂时 释放 PCI 总 线 ， 但 
是 采用 这 种 方式 ，HOST/PCI 桥 将 会 择 时 进行 重 试 操作 。 在 许多 情况 下 ,使 用 Delayed 总 线 
事务 ， 并 不 能 取得 理想 的 效果 ， 因 为 过 多 的 重 试 周期 也 将 大 量 消耗 PCI 总 线 的 带宽 。 

为 了 进一步 提高 Non-Posted 总 线 事务 的 执行 效率 ，PCI-X 总 线 将 PCI 总 线 使 用 的 Delayed 
总 线 事务 ， 升 级 为 Split 总 线 事务 。 采 用 Split 总 线 事务 可 以 有 效 解决 HOST/PCI 桥 的 这 些 重 
试 操作 。Split 总 线 事务 的 基本 思想 是 发 送 端 首先 将 Non-Posted 总 线 请 求 发 送 给 接收 端 ， 然 
后 再 由 接收 端 主动 地 将 数据 传递 给 发 送 端 。 

除了 PCI-X 总 线 可 以 使 用 Split 总 线 事务 进行 数据 传送 之 外 ， 有 些 处 理 器 ， 如 x86 和 
PowerPC 处 理 器 的 FSB (Front Side Bus) 总 线 也 支持 这 种 Split 总 线 事务 ， 因 此 这 些 HOST 主 
桥 也 可 以 发 起 这 种 Split 总 线 事务 。 在 PCIe 总 线 中 ，Non-Posted 数据 传送 都 使 用 Split 总 线 事 
务 完 成 ， 而 不 再 使 用 Delayed 总 线 事务 。 在 第 1. 5. 1 节 将 简要 介绍 Split 总 线 事务 和 PCI-X 总 
线 对 PCI 总 线 的 一 些 功 能 上 的 增强 。 


1.4 PCI 总 线 的 中 断 机 制 


PCI 总 线 使 用 INTA#、INTB#、INTC# 和 INTD# 信 号 向 处 理 器 发 出 中 断 请 求 。 这 些 中 断 请 
求 信 号 为 低 电 平 有 效 ， 并 与 处 理 器 的 中 断 控 制 器 连接 。 在 PCI 体系 结构 中 ,这些 中 断 信 号 属 
于 边 带 信号 (Sideband Signals) ，PCI 总 线 规范 并 没有 明确 规定 在 一 个 处 理 器 系统 中 如 何 使 
用 这 些 信号 ， 因 为 这 些 信 号 对 于 PCI 总 线 是 可 选 信号 。PCI 设备 还 可 以 使 用 MSI 机 制 向 处 理 
器 提交 中 断 请 求 ， 而 不 使 用 这 组 中 断 信号 。 有 关 MSI 机 制 的 详细 说 明 见 第 10 章 。 


1.4.1 中 汤 信号 与 中 汤 控 制 器 的 连接 关系 


不 同 的 处 理 器 使 用 的 中 断 控制 器 不 同 ， 如 x86 处理 器 使 用 APIC (Advanced Programma- 

ble Interrupt Controller) 中 断 控 制 器 ， 而 PowerPC 处 理 器 使 用 MPIC ( Multiprocessor Interrupt 
Controller) 中 断 控制 器 。 这 些 中 断 控制 器 都 提供 了 一 些 外 部 中 断 请 求 引 脚 IRQ_PINx#。 外 部 
设备 ,包括 PCI 设备 可 以 使 用 这 些 引 脚 向 处 理 器 提交 中 断 请 求 。 
但 是 PCI 总 线 规范 没有 规定 PCI 设备 的 INTx 信号 如 何 与 中 断 控制 器 的 IRQ_PINx# 信 号 
相连 ， 这 为 系统 软件 的 设计 带 来 了 一 定 的 困难 ， 为 此 系统 软件 使 用 中 断路 由 表 存 放 PCI 设备 
的 INTx 信号 与 中 断 控 制 器 的 连接 关系 。 在 x86 处 理 器 系统 中 ，BIOS 可 以 提供 这 个 中 断路 由 
表 ， 而 在 PowerPC 处 理 器 中 Firmware 也 可 以 提供 这 个 中 断路 由 表 。 

在 一 些 简 单 的 能 入 式 处 理 器 系统 中 ，Firmware 并 没有 提供 中 断路 由 表 ， 系 统 软件 开发 者 
需要 事先 了 解 PCI 设备 的 INTx 信号 与 中 断 控制 器 的 连接 关系 。 此 时 外 部 设备 与 中 断 控制 器 
的 连接 关系 由 硬件 设计 人 员 指 定 。 

假设 在 一 个 处 理 絮 系统 中 ,共有 3 个 PCI 插 槽 〈 分 别 为 PCI 插 槽 A、B 和 C)， 这些 PCI 
插 槽 与 中 断 控 制 器 的 IRQ_PINx 引 脚 (分别 为 IRQW#、IRQX#、IRQY# 和 IRQZ#) 可 以 按照 
图 1-5 所 示 的 拓扑 结构 进行 连接 。 
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PCI 揪 槽 C PCI 揪 槽 B PCI 搬 槽 A 
IRQW# 


IRQX# 
IRQY# | 也 


IRQZ# 


图 1-5 PCI 插 槽 与 中 断 控制 右 连 接 拓扑 图 


采用 图 1-5 所 示 的 拓扑 结构 时 ，PCI 插 柳 A、B、C 的 INTA#、INTB# 和 INTC# 信 号 将 分 
散 连 接 到 中 断 控 制 器 的 IRQW#、IRQX# 和 IRQY# 信 号 ， 而 所 有 INTD# 信 号 将 共享 一 个 IRQZ# 
信号 。 采 用 这 种 连接 方式 时 ， 整 个 处 理 器 系统 使 用 的 中 断 请 求 信 号 ， 其 负载 较为 均衡 。 而 且 
这 种 连接 方式 保证 了 每 一 个 插 模 的 INTA# 信 号 都 与 一 根 独 立 的 IRQx# 信 号 对 应 ， 从 而 提高 了 
PCI 插 槽 中 断 请 求 的 效率 。 

在 一 个 处 理 器 系统 中 ， 多 数 PCI 设备 仅 使 用 INTA# 信 号 ， 很 少 使 用 INTB# 和 INTC# 信 和 号 ， 
而 INTD# 信 和 号 更 是 极 少 使 用 。 在 PCI 总 线 中 ，PCI 设备 配置 空间 的 Interrupt Pin 寄存 器 记录 
该 设备 究竟 使 用 哪个 INTx 信号 ， 该 寄存 器 的 详细 介绍 见 第 2.3.2 节 。 


1.4.2 中 断 信号 与 PCI 总 线 的 连接 关系 


在 PCI 总 线 中 ，INTx 信号 属于 边 带 信号 。 所 谓 边 带 信号 是 指 这 些 信号 在 PCI 总 线 中 是 
可 选 信号 ， 而 且 只 能 在 一 个 处 理 器 系统 的 内 部 使 用 ， 并 不 能 离开 这 个 处 理 器 环境 。PCI 桥 也 
不 会 处 理 这 些 边 带 信号 。 这 给 PCI 设备 将 中 断 请 求 发 向 处 理 器 带 来 了 一 些 困 难 ， 特 别 是 给 挂 
接 在 PCI 桥 之 下 的 PCI 设备 进行 中 断 请 求 带 来 了 一 些 麻 烦 。 

在 一 些 舱 入 式 处 理 器 系统 中 ， 这 个 问题 较 易 解决 。 因 为 垦 入 式 处 理 器 系统 很 清楚 在 当前 
系统 中 存在 多 少 个 PCI 设备 ， 这 些 PCI 设备 使 用 了 哪些 中 断 资源 。 在 多 数 般 入 式 处 理 器 系统 
中 ，PCI 设备 的 数量 小 于 中 断 控制 器 提供 的 外 部 中 断 请 求 引 脚 数 ， 而 且 在 能 入 式 系统 中 ， 多 
数 PCI 设备 仅 使 用 INTA# 信 号 提交 中 断 请 求 。 

在 这 类 处 理 器 系统 中 ， 可 能 并 不 含有 PCI 桥 ， 因 而 PCI 设备 的 中 断 请 求 信 号 与 中 断 控 制 
器 的 连接 关系 较 易 确定 。 即 便 存在 PCI 桥 , 来 自 PCI 桥 之 下 的 PCI 设备 的 中 断 请 求 也 较 易 
处 理 。 

在 多 数 情况 下 ， 艇 人 式 处 理 器 系统 使 用 的 PCI 设备 仅 使 用 INTA# 信 号 进行 中 断 请 求 ， 所 
以 只 要 将 这 些 INTA# 信 号 挂 接 到 中 断 控制 器 的 独立 IRQ_PIN#3 引 脚 上 即 可 。 这 样 每 一 个 PCI 
设备 都 可 以 独占 一 个 单独 的 中 断 引 脚 。 

而 在 x86 处 理 器 系统 中 ， 这 个 问题 需要 BIOS 参与 来 解决 。 在 x86 处 理 器 系统 中 ， 有 许 
多 PCI 插 模 ， 处 理 器 系统 并 不 知道 在 这 些 插 模 上 将 要 挂 接 哪些 PCI 设备 ， 也 并 不 知道 这 些 
PCI 设备 是 否 需要 使 用 所 有 的 INTx# 信 号 线 。 因 此 x86 处 理 器 系统 必须 对 各 种 情况 进行 处 理 。 

x86 处 理 器 系统 还 经 常 使 用 PCI 桥 进行 PCI 总 线 扩展 ， 扩 展 出 来 的 PCI 总 线 还 可 能 挂 接 
一 些 PCI 插 模 ， 这 些 插 模 上 的 INTx# 信 号 仍然 需要 处 理 。PCI 桥 规范 并 没有 要 求 桥 片 传递 其 
下 PCI 设备 的 中 断 请 求 。 事 实 上 多 数 PCI 桥 也 没有 为 下 游 PCI 总 线 提供 中 断 引 脚 INTx#， 管 
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理 其 下 游 总 线 的 PCI 设备 。 但 是 PCI 桥 规范 推荐 使 用 表 1-3 建立 下 游 PCI 设备 的 INTx 信和 号 


与 上 游 PCI 总 线 INTx 信和 号 之 间 的 映射 关系 。 
表 1-3 PCI 设备 INTx# 信 号 与 PCI 总 线 INTx# 信 和 号 的 映射 关系 
设 备 号 PCI 设备 的 INTx# 信 号 PCI 总 线 的 INTx# 信 和 号 

INTA# INTA# 
INTB# INTB# 

0, 4, 8, 12, 16, 20, 24, 28 
INTC# INTC# 
INTD# INTD# 
INTA# INTB# 
INTB# INTC# 

1, 5, 9, 13, 17, 21, 25, 29 
INTC# INTD# 
INTD# INTA# 
INTA# INTC# 
INTB# INTD# 

2, 6, 10, 14, 18, 22, 26, 30 
INTC# NAY 
INTD# INTB# 
INTA# INTD# 
INTB# INTA# 

3,7,11,15,19, 23, 27, 31 
INTC# INTB# 
INTD# INTC# 


下 面 举例 说 明 该 表 的 含义 。 在 PCI 桥 下 游 总 线 上 的 PCI 设备 ， 如 果 其 设备 号 为 0， 那 么 
这 个 设备 的 INTA#3 引 | 脚 将 和 PCI 总 线 的 INTA#5 引 脚 相 连 ;， 如 果 其 设备 号 为 1， 其 INTA#3 引 脚 
将 和 PCI 总 线 的 INTB#3 引 | 脚 相连 ; 如 果 其 设备 号 为 2， 其 INTA# 引 脚 将 和 PCI 总 线 的 INTC# 
引 脚 相连 ， 如 果 其 设备 号 为 3， 其 INTA#3 引 脚 将 和 PCI 总 线 的 INTD#3 引 | 脚 相连 。 

在 x86 处 理 器 系统 中 ， 由 BIOS 或 者 APCI 表 记 录 PCI 总 线 的 INTA ~ D# 信 号 与 中 断 控制 
器 之 间 的 映射 关系 ， 保 存 这 个 映射 关系 的 数据 结构 也 被 称 为 中 断路 由 表 。 大 多 数 BIOS 使 用 
表 1-3 中 的 映射 关系 ， 这 也 是 绝 大 多 数 BIOS 支持 的 方式 。 如 果 在 一 个 x86 处 理 器 系统 中 ， 
PCI 桥 下 游 总 线 的 PCI 设备 使 用 的 中 断 映 射 关 系 与 此 不 同 ， 那 么 系统 软件 程序 员 需 要 改动 
BIOS 中 的 中 断路 由 表 。 

BIOS 初始 化 代码 根据 中 断路 由 表 中 的 信息 ， 可 以 将 PCI 设备 使 用 的 中 断 向 量 号 写 入 到 
该 PCI 设备 配置 空间 的 Interrupt Line register 寄存 器 中 ， 该 寄存 器 将 在 第 2. 3. 2 节 中 介绍 。 


1.4.3 中 上 断 请 求 的 同步 


在 PCI 总 线 中 ，INTx 信号 是 一 个 异步 信号 。 所 谓 异 步 是 指 INTx 信号 的 传递 并 不 与 PCI 

总 线 的 数据 传送 同步 ， 即 INTx 信和 号 的 传递 与 PCI 设备 使 用 的 CLK# 信 号 无 关 。 这 个 “异步 ” 
言 号 给 系统 软件 的 设计 带 来 了 一 定 的 麻烦 。 

系统 软件 程序 员 需 要 注意 “异步 ”这 种 事件 ， 因 为 几乎 所 有 “异步 ”事件 都 会 带 来 系 

统 的 “同步 ”问题 。 以 图 1-1 为 例 ， 当 PCI 设备 11 使 用 DMA 写 方式 ,将 一 组 数据 写 入 存 
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储 器 ， 该 设备 在 最 后 一 个 数据 离开 PCI 设备 11 的 发 送 FIFO 时 ， 会 认为 DMA 写 操作 已 经 完 
成 。 此 时 这 个 设备 将 通过 INTx 信和 号， 通知 处 理 器 DMA 写 操 作 完 成 。 

此 时 处 理 器 ( 驱动 程序 的 中 断 服务 例 程 》 需 要 注意 ， 因 为 INTx 信号 是 一 个 异步 信号 ， 
当 处 理 器 收 到 INTx 信号 时 ， 并 不 意味 着 PCI 设备 11 已 经 将 数据 写 和 人 存储 器 中 ， 因 为 PCI 设 
备 11 的 数据 传递 需要 通过 PCI 桥 1 和 HOST 主 桥 ， 最终 才 能 到 达 存 储 器 控制 器 。 

而 INTx 信号 是 “异步 ”发 送 给 处 理 器 的 ，PCI 总 线 并 不 知道 这 个 “异步 ”事件 何 时 被 
处 理 。 很 有 可 能 处 理 器 已 经 接收 到 INTx 信号 ， 开 始 执 行 中 断 处 理 程序 时 ， 该 PCI 设备 还 没 
有 完全 将 数据 写 人 存储 器 。 

因为 “PCI 设备 向 处 理 器 提交 中 断 请 求 ” 与 “将 数据 写 和 存储器” 分别 使 用 了 两 个 不 
同 的 路 径 ， 处 理 器 系统 无 法 保证 哪个 信息 率先 到 达 。 从 而 在 处 理 器 系统 中 存在 “中 断 同步 ” 
的 问题 ，PCI 总 线 提供 了 以 下 两 种 方法 解决 这 个 同步 问题 。 

(1) PCI 设备 保证 在 数据 到 达 目 的 地 之 后 ， 再 提交 中 断 请 求 。 
显然 这 种 方法 不 仅 加 大 了 硬件 的 开销 ， 而 且 也 不 容易 实现 。 如 果 PCI 设备 采用 Posted 写 
总 线 事务 ，PCI 设备 无 法 单纯 通过 硬件 逻辑 判断 数据 什么 时 候 写 人 到 存储 器 。 此 时 为 了 保证 
数据 到 达 目 的 地 后 ，PCI 设备 才能 提交 中 断 请 求 ，PCI 设备 需要 使 用 “ 读 刷 新 ”的 方法 保证 
数据 可 以 到 达 目 的 地 ， 其 方法 如 下 。 

PCI 设备 在 提交 中 断 请 求 之 前 ， 向 DMA 写 的 数据 区 域 发 出 一 个 读 请 求 ， 这 个 读 请 求 总 
线 事务 将 被 PCI 设备 转换 为 读 完 成 总 线 事务 ， 当 PCI 设备 收 到 这 个 读 完 成 总 线 事务 后 ， 青 向 
处 理 器 提交 中 断 请 求 。PCI 总 线 的 “ 序 ” 机 制 保证 这 个 存储 器 读 请 求 ， 会 将 DMA 数据 最 终 
写 入 存储 器 ， 有 关 PCI 序 的 详细 说 明 见 第 11. 3 节 。 

PCI 总 线 规范 要 求 HOST 主 桥 和 PCI 桥 必 须 保证 这 种 读 操作 可 以 刷新 写 操作 。 但 问题 
是 ， 没 有 多 少 世 片 设 计 者 愿意 提供 这 种 机 制 ， 因 为 这 将 极 大 地 增加 他 们 的 设计 难度 。 除 此 之 
外 ， 使 用 这 种 方法 也 将 增加 中 断 请 求 的 延 时 。 

(2) 中 断 服务 例 程 使 用 “ 读 刷 新 ”方法 。 

中 断 服 务 例 程 在 使 用 “PCI 设备 写 入 存储 器 ”的 这 些 数据 之 前 ， 需 要 对 这 个 PCI 设备 进 
行 读 操 作 。 这 个 读 操 作 也 可 以 强制 将 数据 最 终 写 入 存储 器 ， 实 际 上 是 将 数据 写 到 存储 器 控制 
器 中 。 这 种 方法 利用 了 PCI 总 线 的 传送 序 规则 ， 与 第 1 种 方法 基本 相同 ， 只 是 这 种 方法 使 用 
软件 方式 ， 而 第 1 种 方式 使 用 硬件 方式 。 第 11. 3 节 将 详细 介绍 这 个 读 操作 如 何 将 数据 刷新 
到 存储 器 中 。 

第 2 种 方法 也 是 绝 大 多 数 处 理 器 系统 采用 的 方法 。 程 序 员 在 编写 中 断 服务 例 程 时 ， 往 往 
都 是 先 读 取 PCI 设备 的 中 断 状态 寄存 器 ， 判 断 中 断 产 生 原 因 之 后 ， 才 对 PCI 设备 写 和 的 数据 
进行 操作 。 这 个 读 取 中 断 状态 寄存 器 的 过 程 ， 一 方面 可 以 获得 设备 的 中 断 状 态 ， 另 一 方面 可 
以 保证 DMA 写 的 数据 最 终 到 达 存 储 器 。 如 果 驱 动 程序 不 这 样 做 ， 就 可 能 产生 数据 完整 性 问 
题 。 产 生 这 种 数据 完整 性 问题 的 原因 是 INTx 这 个 异步 信号 。 

这 里 也 再 次 提醒 系统 程序 员 注 意 PCI 总 线 的 “异步 ”中 断 所 带 来 的 数据 完整 性 问题 。 
在 一 个 操作 系统 中 ， 即 便 中 断 处 理 程序 没有 首先 读 取 PCI 设备 的 寄存 器 ， 也 多 半 不 会 出 现 问 
题 ， 因 为 在 操作 系统 中 ， 一 个 PCI 设备 从 提交 中 断 到 处 理 器 开始 执行 设备 的 中 断 服 务 例 程 ， 
所 需要 的 时 间 较 长 ， 处 理 器 系统 基本 上 可 以 保证 此 时 数据 已 经 写 人 存储 器 。 

但 是 如 果 系 统 程序 员 不 这 样 做， 这 个 驱动 程序 依然 有 Bug， 尽 管 这 些 Bug 因为 各 种 机 缘 
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巧合 ， 始 终 不 能 够 暴露 出 来 ， 而 一 旦 这 些 Bug 被 暴露 出 来 将 难以 定位 。 为 此 系统 程序 员 务 必 
重视 设计 中 的 每 一 个 实现 细节 ， 当 然 仅 凭 小 心间 慎 是 远 远 不 够 的 ， 因 为 重视 细节 的 前 提 是 充 
分 理解 这 些 细节 。 

PCI 总 线 V2. 2 规范 还 定义 了 一 种 新 的 中 断 机 制 ， 即 MSI 中 断 机 制 。MSI 中 断 机 制 采 用 
存储 器 写 总 线 事务 向 处 理 器 系统 提交 中 断 请 求 ， 其 实现 机 制 是 向 HOST 处 理 器 指定 的 一 个 存 
储 器 地 址 写 指定 的 数据 。 这 个 存储 器 地 址 一 般 是 中 断 控制 器 规定 的 某 段 存储 器 地 址 范围 ， 而 
且 数 据 也 是 事先 安排 好 的 数据 ， 通 常 含有 中 断 向 量 号 。 

HOST 主 桥 会 将 MSI 这 个 特殊 的 存储 器 写 总 线 事 务 进一步 翻译 为 中 断 请 求 ， 提 交 给 处 理 
器 。 目 前 PCIe 和 PCI-X 设备 必须 支持 MSI 中 断 机 制 ， 但 是 PCI 设备 并 不 一 定 都 支持 MSI 中 
断 机 制 。 

目前 MSI 中 断 机 制 虽然 在 PCIe 总 线 上 已 经 成 为 主流 ,但 是 在 PCI 设备 中 并 不 常用 。 即 

便 是 支持 MSI 中 断 机 制 的 PCI 设备 ， 在 设备 驱动 程序 的 实现 中 也 很 少 使 用 这 种 机 制 。 首 先 
PCI 设备 具有 INTx# 信 号 可 以 传递 中 断 ， 而 且 这 种 中 断 传 送 方 式 在 PCI 总 线 中 根深 蒂 回 。 其 
次 PCI 总 线 是 一 个 共享 总 线 ， 传 递 MSI 中 断 需 要 占用 PCI 总 线 的 带宽 ， 需 要 进行 总 线 仲裁 等 
一 系列 过 程 ， 远 没有 使 用 INTx# 信 号 线 直 接 。 
但 是 使 用 MSI 中 断 机 制 可 以 取消 PCI 总 线 这 个 INTx# 边 带 信号 ， 可 以 解决 使 用 INTx 中 
断 机 制 所 带 来 的 数据 完整 性 问题 。 而 更 为 重要 的 是 ，PCI 设备 使 用 MSI 中 断 机 制 ， 向 处 理 器 
系统 提交 中 断 请 求 时 ， 还 可 以 通知 处 理 器 系统 产生 该 中 断 的 原因 ， 即 通过 不 同 中 断 向 量 号 表 
示 中 断 请 求 的 来 源 。 当 处 理 器 系统 执行 中 断 服务 例 程 时 ， 不 需要 读 取 PCI 设备 的 中 断 状态 寄 
存 器 ， 获 得 中 断 请 求 的 来 源 ， 从 而 在 一 定 程 度 上 提高 了 中 断 处 理 的 效率 。 本 书 将 在 第 10 章 
详细 介绍 MSI 中 断 机 制 。 


1.5 PCI-X 总 线 简介 


PCI-X 总 线 仍 采用 并 行 总 线 技术 。PCI-X 总 线 使 用 的 大 多 数 总 线 事务 基于 PCI 总 线 ， 但 
是 在 实现 细节 上 略 有 不 同 。PCI-X 总 线 将 工作 频率 提高 到 533 MHz， 并 首先 引入 了 PME 
(Power Management Event) 机 制 。 除 此 之 外 ，PCI-X 总 线 还 提出 了 许多 新 的 特性 。 


1.5.1 Split 总 线 事务 


Split 总 线 事务 是 PCI-X 总 线 的 一 个 重要 特性 。 该 总 线 事务 蔡 代 了 PCI 总 线 的 Delayed 数 
据 传送 方式 ， 从 而 提高 了 Non-Posted 总 线 事务 的 传送 效率 。 下 面 以 存储 器 读 为 例 ， 说 明 PCI- 
X 设备 如 何 使 用 Split 总 线 事务 。 

PCI-X 总 线 在 进行 存储 器 读 总 线 事务 时 ， 总 线 事 务 的 发 起 方 (Requester) 使 用 Split 总 
线 事务 与 总 线 事务 接收 端 (Completer) 进行 数据 交换 ， 其 步骤 如 下 。 

(1) Requester 向 Completer 发 起 存储 器 读 请 求 总 线 事务 。 

(2) 这 个 存储 器 读 请 求 在 到 达 Completer 之 前 ， 可 能 会 经 过 多 级 PCI-X 桥 。 这 些 PCI-X 
桥 使 用 Split Response 周期 结束 当前 总 线 事务 ， 释 放 上 游 PCI 总 线 。 之 后 继续 转发 这 个 存储 
髓 读 请 求 ， 直 到 Completer 认领 这 个 存储 器 读 请 求 总 线 事务 。 

(3) Completer 认领 存储 器 读 请 求 总 线 事 务 后 ， 会 记录 Requester 的 ID 号 ， 并 使 用 Split 
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Response 周期 结束 存储 器 读 请 求 总 线 事务 。 

(4) Completer 准备 好 数据 后 ， 将 重新 申请 总 线 ， 并 使 用 存储 器 读 完成 总 线 事务 主动 地 
将 数据 传送 给 Requester。 在 这 个 完成 报 文中 包含 Requester 的 ID 号 ， 因 为 完成 报 文 使 用 ID 
路 由 而 不 是 地 址 路 由 。 

(5) 这 些 完 成 报 文 根 据 ID 路 由 方式 ， 最 终 到 达 Requester。Requester 从 完成 报 文 中 接收 
数据 并 完成 整个 存储 器 读 请 求 。 

与 Delayed 总 线 事务 相 比 ，Requester 获得 的 数据 是 Completer 将 数据 完全 准备 好 后 ， 由 
Completer 主动 传递 的 ， 而 不 是 通过 Requester 通过 多 次 重 试 获得 的 ， 因 此 能 够 提高 PCI-X 总 
线 的 使 用 效率 。PCI-X 总 线 提出 的 Split 总 线 事务 被 PCIe 总 线 继承 。 


1.5.2 总 线 传送 协议 


PCI-X 总 线 改 变 了 PCI 总 线 使 用 的 传送 协议 。 目 标 设备 可 以 将 主 设备 发 送 的 命令 锁 存 ， 
然后 在 下 一 个 时 钟 周 期 进行 译 码 操作 。 与 PCI 总 线 事务 相 比 ，PCI-X 总 线 采 用 的 这 种 方式 ， 
虽然 在 总 线 时 序 中 多 使 用 了 一 个 时 钟 周期 ， 但 是 可 以 有 效 提高 PCI-X 总 线 的 运行 频率 。 

因为 主 设备 通过 数据 线 将 命令 发 送 到 目标 设备 需要 一 定 的 延 时 。 如 果 PCI 总 线 频率 较 
高 ， 目 标 设备 很 难 在 一 个 时 钟 周期 内 接收 完毕 总 线 命令 ， 并 同时 完成 译 码 工作 。 而 如 果 目 标 
设备 能 够 将 主 设备 发 出 的 命令 先进 行 锁 存 ， 然 后 在 下 一 个 时 钟 周 期 进行 译 码 则 可 以 有 效 解决 
这 个 译 码 时 间 Margin 不 足 的 问题 ， 从 而 提高 PCI-X 总 线 的 频率 。PCI-X 1. 0 总 线 可 以 使 用 的 
最 高 总 线 频率 为 133 MHz， 而 PCI-X 2. 0 总 线 可 以 使 用 的 最 高 总 线 频率 为 333 MHz， 远 比 PCI 
总 线 使 用 的 总 线 频率 高 。 

除了 信号 传送 协议 外 ，PCI-X 总 线 在 进行 DMA 读 写 时 ， 可 以 不 进行 Cache 共享 一 致 性 
操作 ， 而 PCI 总 线 进行 DMA 读 写 时 必须 进行 Cache 一 致 性 操作 。 在 某 些 特殊 情况 下 ，DMA 
读 写 时 进行 Cache 共享 一 致 性 不 但 不 能 提高 总 线 传送 效率 ， 反 而 会 降低 。 第 3. 3 节 将 详细 讨 
论 与 Cache 一 致 性 相关 的 PCI 总 线 事务 。 

此 外 PCI-X 总 线 还 支持 乱 序 总 线 事 务 ， 即 Relaxed Ordering， 该 总 线 事务 被 PCle 总 线 继 
承 。 对 于 某 些 应 用 ，PCI-X 设备 使 用 Relaxed ordering 方式 ， 可 以 有 效 地 提高 数据 传送 效率 。 
但 是 支持 Relaxed Ordering 的 设备 ， 需 要 较 多 的 数据 缓存 和 硬件 逻辑 处 理 这 些 乱 序 ， 这 为 
PCI-X 设备 的 设计 带 来 了 不 小 的 困难 。 


1.5.3 ”基于 数据 块 的 突 发 传送 


在 PCI 总 线 中 ,一 次 突 发 传送 的 大 小 为 2 个 以 上 的 双 字 。 一 次 突 发 传送 所 携带 的 数据 越 
多 ， 突 发 传送 的 总 线 利用 率 也 越 高 。 

而 PCI 总 线 的 突 发 传送 仍然 存在 缺陷 。 在 PCI 总 线 中 ， 数 据 发 送 端 知道 究竟 需要 发 送 多 
少 字 节 的 数据 ， 但 是 接收 端 并 不 清楚 到 底 需 要 接收 多 少数 据 。 这 种 不 确定 性 ， 为 接收 端的 组 
冲 管理 带 来 了 较 大 的 挑战 。 

为 此 PCI-X 总 线 使 用 基于 数据 块 的 突 发 传送 方式 ， 发 送 端 以 ADB (Allowable Disconnect 
Boundary) 为 单位 ， 将 数据 发 送 给 接收 端 ， 一 次 突 发 读 写 为 一 个 以 上 的 ADB。 采 用 这 种 方 
式 ， 接 收 端 可 以 事先 预知 是 否 有 足够 的 接收 绥 冲 ， 接 收 来 自发 送 端 的 数据 ， 从 而 可 以 及 时 断 
连 当 前 总 线 周 期 ， 以 节约 PCI-X 总 线 的 带宽 。 在 PCI-X 总 线 中 ，ADB 的 大 小 为 128 B。 
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由 于 ADB 的 引入 ，PCI 总 线 与 Cache 相关 的 总 线 事务 如 Memory Read Line、Memory 
Read Multiline 和 Memory Write and Invalidate， 都 被 PCI-X 总 线 使 用 与 ADB 相关 的 总 线 事务 
蔡 代 。 因 为 通过 ADB，PCI-X 桥 (HOST 主 桥 ) 可 以 准确 地 预知 即将 访问 的 数据 在 Cache 中 
的 分 布 情况 。 

PCI-X 总 线 还 增加 了 一 些 其 他 特性 ， 如 在 总 线 事 务 中 增加 传送 字 节 计数 ， 限 制 等 待 状态 
等 机 制 ， 并 增强 了 奇偶 校 验 的 管理 方式 。 但 是 PCI-X 总 线 还 没有 普及 ， 就 被 PCle 总 线 蔡 代 。 
因此 在 PC 领域 和 内 入 式 领域 很 少 有 基于 PCLX 总 线 的 设备 ，PCI-X 设备 仅 在 一 些 高 端 服务 
器 上 出 现 。 因 此 本 节 不 对 PCI-X 总 线 做 进一步 描述 。 事 实 上 ，PCI-X 总 线 的 许多 特性 都 被 
PCIe 总 线 继承 。 


1.6 小 结 


本 章 主要 介绍 了 PCI 总 线 的 基本 组 成 部 件 ，PCI 设备 如 何 提 交 中 断 请 求 ， 以 及 PCI-X 总 
线 对 PCI 总 线 的 功能 增强 。 本 章 的 重点 在 于 PCI 总 线 的 Posted 和 Non-Posted 总 线 事 务 ， 以 及 
PCI 总 线 如 何 使 用 Delayed 传送 方式 处 理 Non-Posted 总 线 事 务 ， 请 读者 务必 深入 理解 这 两 种 
总 线 事务 的 不 同 。 
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第 2 全 PCI 总 线 的 桥 与 配置 


在 PCI 体系 结构 中 ， 含 有 两 类 桥 ， 一 类 是 HOST 主 桥 ， 另 一 类 是 PCI 桥 。 在 每 一 个 
PCI 设 备 中 (包括 PCI 桥 ) 都 含有 一 个 配置 空间 。 这 个 配置 空间 由 HOST 主 桥 管 理 ， 而 
PCI 桥 可 以 转发 来 自 HOST 主 桥 的 配置 访问 。 在 PCI 总 线 中 ，PCI Agent 设备 使 用 的 配置 

空间 与 PCI 桥 使 用 的 配置 空间 有 些 差 别 ， 但 这 些 配 置 空间 都 是 由 处 理 器 通过 HOST 主 桥 
管理 的 。 


2. 1 存储 器 域 与 PCI 总 线 域 


HOST 主 桥 的 实现 因 处 理 器 系统 而 异 。PowerPC 处 理 器 和 x86 处 理 器 的 HOST 主 桥 除了 
成 方式 不 同 之 外 ， 其 实现 机 制 也 有 较 大 差异 。 但 是 这 些 HOST 主 桥 所 完成 的 最 基本 功能 依 
然 是 分 离 存 储 器 域 与 PCI 总 线 域 ， 完 成 PCI 总 线 域 到 存储 器 域 ， 存 储 器 域 到 PCI 总 线 域 之 间 
的 数据 传递 并 管理 PCI 设备 的 配置 空间 。 

之 前 曾经 多 次 提 到 ， 在 一 个 处 理 器 系统 中 ， 存 在 PCI 总 线 域 与 存储 器 域 ,深入 理解 这 两 
个 域 的 区 别 是 理解 HOST 主 桥 的 关键 所 在 。 在 一 个 处 理 器 系统 中 ， 存 储 器 域 、PCI 总 线 域 与 
HOST 主 桥 的 关系 如 图 2-1 所 示 。 


CPU 域 


a 


A 


济 禄 


ragsad 


PCI 总 线 yl1 


Se 本 _ 2 


PCI 总 线 x 域 > Se PCI 总 线 y 域 
图 2-1 存储 器 域 与 PCI 总 线 域 的 划分 


图 中 的 处 理 器 系统 由 一 个 CPU、 一 个 DRAM 控制 器 和 两 个 HOST 主 桥 组 成 。 在 这 个 处 
理 器 系统 中 ， 包 含 CPU 域 、DRAM 域 、 存 储 器 域 和 PCI 总 线 域 地 址 空间 。 其 中 HOST 主 桥 x 
和 HOST 主 桥 y 分 别管 理 PCI 总 线 x 域 与 PCI 总 线 y 域 。PCI 设备 访问 存储 器 域 时 ， 也 需要 
通过 HOST 主 桥 ， 并 由 HOST 主 桥 进行 PCI 总 线 域 到 存储 器 域 的 地 址 转换 ;CPU 访问 PCI 设 
备 时 ， 同 样 需要 通过 HOST 主 桥 进 行 存 储 器 域 到 PCI 总 线 域 的 地 址 转换 。 
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如 果 HOST 主 桥 支持 Peer-to-Peer 传送 机 制 ，PCI 总 线 x 域 上 的 设备 可 以 与 PCI 总 线 y 域 
上 的 设备 直接 通信 ， 如 PCI 设备 xll 可 以 直接 与 PCI 设备 yll 通信 。 为 简化 模型 ， 在 本 书 
中 ，PCI 总 线 仅 使 用 32 位 地 址 空间 。 


2.1.1 CPU 域 、DRAM 域 与 存储 器 域 


CPU 域 地 址 空间 指 CPU 所 能 直接 访问 的 地 址 空间 集合 。 在 本 书 中 ，CPU 、 处 理 器 与 处 
理 器 系统 的 概念 不 同 。 如 MPC8548 处 理 器 的 内 核 是 E500 V20， 本 书 将 这 个 处 理 器 内 核 称 为 
CPU; 处 理 器 由 一 个 或 者 多 个 CPU 、 外 部 Cache 、 中 断 控 制 器 和 DRAM 控制 器 组 成 ;而 处 理 
器 系统 由 一 个 或 者 多 个 处 理 器 和 外 部 设备 组 成 。 

在 CPU 域 中 有 一 个 重要 概念 ， 即 CPU 域 边 界 。 所 谓 CPU 域 边 界 ， 即 CPU 所 能 控制 的 
数据 完整 性 边界 。CPU 域 的 边界 由 Memory Fence 指令 的 作用 范围 确定 ，CPU 域 边界 的 划 
分 对 数据 完整 性 (Data Consistency) 非常 重要 。 与 CPU 域 相关 的 数据 完整 性 知识 较为 复杂 ， 
可 以 独立 成 书 ， 因 此 本 书 对 数据 完整 性 不 做 进一步 介绍 。 

严格 地 讲 ，CPU 域 仅 在 CPU 内 核 中 有 效 。CPU 访问 主 存 储 器 时 ， 首 先 将 读 写 命令 放 入 
读 写 指令 缓冲 中 ， 然 后 将 这 个 命令 发 送 到 DRAM 控制 器 或 者 HOST 主 桥 。DRAM 控制 器 或 
者 HOST 主 桥 将 CPU 地 址 转换 为 DRAM 或 者 PCI 总 线 地 址 ， 分 别 进入 DRAM 域 或 者 PCI 总 
线 域 后 ， 再 访问 相应 的 地 址 空间 。 

DRAM 域 地 址 空间 指 DRAM 控制 器 所 能 访问 的 地 址 空间 集合 。 目 前 处 理 器 系统 的 
DRAM 一 般 由 DDR - SDRAM 组 成 ， 有 的 书籍 也 将 这 部 分 内 存 称 为 主 存储 器 。 在 有 些 处 理 器 
系统 中 ，DRAM 控制 器 能 够 访问 的 地 址 空间 ， 并 不 能 被 处 理 器 访问 ， 因 此 在 这 类 处 理 器 系统 
中 ，CPU 域 与 DRAM 域 地 址 空间 并 不 等 同 。 

比如 有 些 CPU 可 以 支持 36 位 的 物理 地 址 ， 而 有 些 DRAM 控制 需 仅 支持 32 位 的 物理 地 
址 ， 此 时 CPU 域 包含 的 地 址 空间 大 于 DRAM 域 地 址 空间 。 但 是 这 并 不 意味 着 DRAM 域 一 定 
包含 在 CPU 域 中 ,在 某 些 处 理 器 系统 中 ，CPU 并 不 能 访问 在 DRAM 域 中 的 某 些 数据 区 域 。 
而 CPU 域 中 除了 包含 DRAM 域外 ， 还 包含 外 部 设备 空间 。 

在 多 数 处 理 器 系统 中 ，DRAM 域 空间 是 CPU 域 空 间 的 一 部 分 ， 但 是 也 有 例外 。 比 如 显 
卡 控制 器 可 能 会 借用 一 部 分 主 存储 器 空间 ， 这 些 被 借用 的 空间 不 能 被 CPU 访问 ， 而 只 能 被 
DRAM 控制 器 ， 更 为 准确 地 说 是 显卡 通过 DRAM 控制 器 访问 ， 因 此 这 段 空 间 不 属于 CPU 域 ， 
严格 地 讲 ， 这 段 空 间 属 于 外 部 设备 域 。 

本 书 使 用 存储 器 域 统称 CPU 域 与 DRAM 域 。 存 储 器 域 包括 CPU 内 部 的 通用 寄存 器 、 存 
储 器 映像 寻 址 的 寄存 器 、 主 存储 器 空间 和 外 部 设备 空间 。 在 Intel 的 x86 处 理 器 系统 中 ， 外 
部 设备 空间 与 PCI 总 线 域 地 址 空间 等 效 ， 因 为 在 x86 处 理 右 系统 中 ,使 用 PCI 总 线 统 一 管理 
全 部 外 部 设备 。 为 简化 起 见 ， 本 书 使 用 PCI 总 线 域 蔡 代 外 部 设备 域 。 

值得 注意 的 是 ， 存 储 絮 域 的 外 部 设备 空间 ， 在 PCI 总 线 域 中 还 有 一 个 地 址 映射 。 当 处 理 
器 访问 PCI 设备 时 ， 首 先 访问 的 是 这 个 设备 在 存储 需 域 上 的 PCI 设备 空间 ， 之 后 HOST 主 桥 


加 MPC8548 处 理 器 基于 E500 V2 内 核 。 目 前 E500 内 核 包 括 V1、V2 和 me (MultiCore) 三 个 版 本 。 
四 x86 处 理 髓 的 Memory Fence 指令 为 MFENCE、LFENCE 和 SFENCE， 而 PowerPC 人 处理 器 的 Memory Fence 指令 》 


msync 和 mbar。 
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将 这 个 存储 器 域 的 PCI 总 线 地 址 转换 为 PCI 总 线 域 的 物理 地 址 ?， 然 后 通过 PCI 总 线 事务 访 
问 PCI 总 线 域 的 地 址 空间 。 


2.1.2 PCI 总 线 域 


在 x86 处 理 器 系统 中 ，PCI 总 线 域 是 外 部 设备 域 的 重要 组 成 部 分 。 实 际 上 在 Intel 的 x86 
处 理 器 系统 中 ， 所 有 的 外 部 设备 都 使 用 PCI 总 线 管理 。 而 AMD 的 x86 处 理 器 系统 中 还 存在 
一 条 HT (HyperTransport) 总 线 ，HT 总 线 的 主要 目的 是 替代 FSB 总线, 但 是 也 可 以 作为 局 
部 总 线 连接 一 些 高 速 设备 即 HT 设备 ， 因 此 在 AMD 的 x86 处 理 器 系统 中 还 存在 HT 总 线 域 。 
本 书 对 HT 总 线 不 做 进一步 介绍 。 

PCI 总 线 域 (PCI Segment) 由 PCI 设备 所 能 直接 访问 的 地 址 空间 组 成 。 在 一 个 处 理 器 系 
统 中 ， 可 能 存在 多 个 HOST 主 桥 ， 因 此 也 存在 多 个 PCI 总 线 域 。 如 在 图 2-1 所 示 的 处 理 需 系 
统 中 ， 具 有 两 个 HOST 主 桥 ， 因 而 在 这 个 处 理 器 系统 中 存在 PCI 总线 x 和 y 域 。 

在 多 数 处 理 器 系统 中 ， 分 属于 两 个 PCI 总 线 域 的 PCI 设备 并 不 能 直接 进行 数据 交换 ， 而 
需要 通过 FSB 进行 数据 交换 。 值 得 注意 的 是 ， 如 果 某 些 处 理 右 的 HOST 主 桥 支 持 Peer-to- 
Peer 数据 传送 ， 那 么 这 个 HOST 主 桥 可 以 支持 不 同 PCI 总 线 域 间 的 数据 传送 。 

PowerPC 处 理 器 使 用 了 OCeaN 技术 连接 两 个 HOST 主 桥 ，OCeaN 可 以 将 属于 x 域 的 PCI 
数据 请 求 转 发 到 y 域 ，OCeaN 支持 PCI 总 线 的 Peer-to-Peer 数据 传送 。 有 关 OCeaN 技术 的 详 
细 说 明 见 第 2.2 节 。 


2.1.3 ”处 理 器 域 


处 理 器 域 是 指 一 个 处 理 器 系统 能 够 访问 的 地 址 空间 集合 。 处 理 器 系统 能 够 访问 的 地 址 空 
间 由 存储 器 域 和 外 部 设备 域 组 成 。 其 中 存储 器 域 地址 空间 较为 简单 ， 而 在 不 同 的 处 理 器 系统 
中 ， 外 部 设备 域 的 组 成 结构 并 不 相同 。 如 在 x86 处 理 器 系统 中 ， 外 部 设备 域 主要 由 PCI 总 线 
域 组 成 ， 因 为 大 多 数 外 部 设备 都 是 挂 接 在 PCI 总 线 S 上 的 ， 而 在 PowerPC 处 理 器 和 其 他 处理 
器 系统 中 ， 有 相当 多 的 设备 与 FSB 直接 相连 ， 而 不 与 PCI 总 线 相连 。 

本 书 仅 介绍 PCI 总 线 域 而 不 对 其 他 外 部 设备 域 进行 说 明 。 其 中 存储 器 域 与 PCI 总 线 域 之 
间 由 HOST 主 桥 联系 在 一 起 。 深 入 理解 这 些 域 的 关系 是 深入 理解 PCI 体系 结构 的 关键 所 在 ， 
实际 上 这 也 是 理解 处 理 器 体系 结构 的 基础 。 

通过 HOST 主 桥 ， 处 理 器 系统 可 以 将 处 理 器 域 划分 为 存储 器 域 与 PCI 总 线 域 。 其 中 存储 
器 域 与 PCI 总 线 域 彼此 独立 ， 并 通过 HOST 主 桥 进行 数据 交换 。HOST 主 桥 是 联系 存储 器 域 
与 PCI 总 线 域 的 桥梁 ， 是 PCI 总 线 域 实际 的 管理 者 。 

有 些 书籍 认为 HOST 处 理 器 是 PCI 总 线 域 的 管理 者 ， 这 种 说 法 并 不 准确 。 假 设 在 一 个 
SMP 处 理 器 系统 中 ,存在 4 个 CPU 而 只 有 一 个 HOST 主 桥 ， 这 4 个 CPU 将 无 法 判断 究竟 谁 
是 HOST 处 理 器 。 不 过 究竟 是 哪个 处 理 器 作为 HOST 处 理 器 并 不 重要 ， 因 为 在 一 个 处 理 器 系 
统 中 ， 是 HOST 主 桥 管 理 PCI 总 线 域 ， 而 不 是 HOST 处 理 器 。 当 一 个 处 理 器 系统 中 含有 多 个 
CPU 时 ， 如 果 每 个 CPU 都 可 以 访问 HOST 主 桥 ， 那 么 这 些 CPU 都 可 以 作为 这 个 HOST 主 桥 


”PCI 总 线 域 只 含有 物理 地 址 ， 因 此 下 文 将 直接 使 用 PCI 总 线 地 址 ， 而 不 使 用 PCI 总 线 物理 地 址 。 
外 AMD 的 x86 处 理 器 中 的 某 些 外 部 设备 ， 可 能 是 基于 HT 总 线 ， 而 不 使 用 PCI 总 线 。 
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所 管理 PCI 总 线 树 的 HOST 处 理 右 。 

在 一 个 处 理 器 系统 中 ，CPU 所 能 访问 的 PCI 总 线 地 址 一 定 在 存储 器 域 中 具有 地 址 映射 ; 
而 PCI 设备 能 访问 的 存储 器 域 的 地 址 也 一 定 在 PCI 总 线 域 中 具有 地 址 映射 。 当 CPU 访问 PCI 
域 地 址 空间 时 ， 首 先 访问 存储 器 域 的 地 址 空间 ， 然 后 经 过 HOST 主 桥 转换 为 PCI 总 线 域 的 地 
址 ， 再 通过 PCI 总 线 事务 进行 数据 访问 。 而 当 PCI 设备 访问 主 存储 器 时 ， 首 先 通 过 PCI 总 线 
事务 访问 PCI 总 线 域 的 地 址 空间 ， 然 后 经 过 HOST 主 桥 转 换 为 存储 器 域 的 地 址 后 ， 再 对 这 些 
空间 进行 数据 访问 。 

由 此 可 见 ， 存储器 域 与 PCI 总 线 域 的 转换 关系 由 HOST 主 桥 统一 进行 管理 。 有 些 处 理 器 
提供 了 一 些 寄存 器 进行 这 种 地 址 映射 ， 如 PowerPC 处 理 器 使 用 Inbound 和 Outbound 寄存 器 组 
保存 存储 器 域 与 PCI 总线 域 的 地 址 映射 关系 ; 而 有 些 处 理 右 并 没有 提供 这 些 寄存 器 ， 但 是 存 
储 器 域 到 PCI 总 线 域 的 转换 关系 依然 存在 。 

HOST 主 桥 进 行 不 同 地 址 域 间 的 数据 交换 时 ， 需 要 遵循 以 下 规则 。 为 区 别 存储 器 域 到 
PCI 总 线 域 的 地 址 映射 ,下面 将 PCI 总 线 域 到 存储 器 域 的 地 址 映射 称 为 反 向 映射 。 

(1) 处 理 器 访问 PCI 总 线 域 地 址 空间 时 ， 首 先 需 要 访问 存储 器 域 的 地 址 空间 ， 再 通 
过 HOST 主 桥 将 存储 器 地 址 转换 为 PCI 总 线 地 址 ， 之 后 才能 进入 PCI 总 线 域 进行 数据 交 
换 。PCI 设 备 使 用 的 地 址 空间 保存 在 各 自 的 PCI 配置 寄存 器 中 ， 即 BAR 寄存 器 中 。 这 
些 PCI 总线 地 址 空间 需要 在 初始 化 时 映射 成 为 存储 器 域 的 存储 器 地 址 空间 ， 之 后 处 理 
器 才能 访问 这 些 地 址 空间 。 在 有 些 处 理 器 的 HOST 主 桥 中 ， 具 有 独立 的 寄存 器 保存 这 个 
地 址 映射 规则 ， 如 PowerPC 处 理 器 的 Outbound 寄存 器 组 ; 而 有 些 处 理 器 ， 如 在 x86 处 
理 器 中 ， 虽 然 没 有 这 样 的 寄存 器 组 ， 但 是 在 HOST 主 桥 的 硬件 逻辑 中 仍然 存在 这 个 地 址 
转换 的 概念 。 

(2) PCI 设备 访问 存储 器 域 时 ， 首 先 需要 访问 PCI 总 线 域 的 地 址 空间 ， 再 通过 HOST 主 
桥 将 PCI 总 线 地 址 转换 为 存储 器 地 址 ， 才 能 穿越 HOST 主 桥 进行 数据 交换 。 为 此 处 理 器 需要 
通过 HOST 主 桥 将 这 个 PCI 总 线 地 址 反 向 映射 为 存储 器 地 址 。PCI 设备 不 能 访问 在 PCI 总 线 
域 中 没有 进行 这 种 反 向 映射 的 存储 右 域 地 址 空间 。PowerPC 处 理 器 使 用 Inbound 寄存 器 组 存 
放 PCI 设备 所 能 访问 的 存储 器 空间 ， 而 在 x86 处 理 器 中 并 没有 这 样 的 寄存 器 组 ， 但 是 依然 存 
在 这 个 地 址 转换 的 概念 。 

(3) 如 果 HOST 主 桥 不 支持 Peer-to-Peer 传送 方式 ， 那 么 分 属 不 同 PCI 总 线 域 的 PCI 设 
备 间 不 能 直接 进行 数据 交换 。 在 32 位 的 PCI 总 线 中 ， 每 一 个 PCI 总 线 域 的 地 址 范围 都 是 
0x0000-0000 ~0xFFFF-FFFF， 但 是 这 些 地 址 没有 直接 联系 。PCI 总 线 x 域 上 的 PCI 总 线 地 址 
0x0000-0000 与 PCI 总 线 y 域 上 的 PCI 总 线 地 址 0x0000-0000 并 不 相同 ， 而 且 这 两 个 PCI 总 线 
地 址 经 过 HOST 主 桥 反 向 映射 后 ， 得 到 的 存储 器 地 址 也 不 相同 。 

在 第 2.2 节 中 ,将 主要 以 PowerPC 处 理 器 为 例 说 明 HOST 主 桥 的 实现 机 制 ， 并 在 第 
2. 2.4 节 简 要 说 明 x86 处 理 器 中 的 南北 桥 构 架 。 尽 管 部 分 读者 对 PowerPC 处 理 器 并 不 感 兴 
趣 ， 笔 者 仍然 强烈 建议 读者 仔细 阅读 第 2. 2 节 的 全 部 内 容 。 

在 PowerPC 处 理 絮 中 ，HOST 主 桥 的 实现 比较 完整 ， 尤 其 是 PCI 总 线 域 与 存储 器 域 的 映 
射 关 系 比较 明晰 ， 便 于 读者 准确 掌握 这 个 重要 的 概念 。 而 x86 处 理 器 由 于 考虑 向 前 兼容 
(backward compatibility) ， 设 计 中 包含 了 太 多 的 不 得 已 。x86 处 理 需 有 时 不 得 不 保留 原 设 计 中 
的 不 完美 ， 向 前 兼容 是 Intel 的 重要 成 就 ， 也 是 一 个 沉重 的 十 字 架 。 
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2.2 HOST 主 桥 


本 节 以 MPC8548 处 理 融 为 例 说 明 HOST 主 桥 在 PowerPC 处 理 融 中 的 实现 机 制 ， 并 简要 
介绍 x86 处 理 器 系统 使 用 的 HOST 主 桥 。 

MPC8548 处 理 咒 是 Freescale 基于 E500 V2 内 核 的 一 个 PowerPC 处 理 器 ， 该 处 理 器 中 集 
成 了 DDR 控制 需 、 多 个 eTSEC (Enhanced Three-Speed Ethernet Controller ) 、PCIZPCI-X 和 
PCle 总 线 控制 器 等 一 系列 接口 。MPC8548 处 理 器 的 拓扑 结构 如 图 2-2 所 示 。 


E500 V2 


L1 Cache 


CCB(Core Complex Bus) 


Cache 
一 致 性 模块 
SoC 平 台 总 线 

以 太 网 

控制 器 
PCIe RapidIO PCI 总 线 PCI 总 线 

中 oe rs 和 PHY DDR-SDRAM 

“ll 


图 2-2 MPC8548 处 理 器 的 拓扑 结构 


图 中 ，MPC8548 处 理 器 的 Ll Cache 在 E500 V2 内 核 中 ， 而 L2 Cache 与 FSB? 直 接 相 连 ， 
不 属于 E500 内 核 。 值 得 注意 的 是 有 些 高 端 PowerPC 处 理 器 的 L2 Cache 也 在 CPU 中 ， 而 13 
Cache 与 CCB 总 线 直接 相连 。 

在 MPC8548 处 理 器 中 ， 所 有 外 部 设备 ， 如 以 太 网 控制 占 、DDR 控制 器 和 OCeaN 连接 的 
总 线 控制 器 都 与 SoC 平台 总 线 直接 连接 。 而 SoC 平台 总 线 通过 Cache 共享 一 致 性 模块 与 
FSB 连接 。 

在 MPC8548 处 理 器 中 ， 具 有 一 个 32 位 的 PCI 总 线 控制 器 、 一 个 64 位 的 PCI/PCI-X 总 
线 控制 器 ， 还 有 多 个 PCIe 总 线 控制 器 。MPC8548 处 理 器 使 用 OCeaN 连接 这 些 PCI、PCI-X 
和 PCIe 总 线 控制 器 。 在 MPC8548 处 理 器 系统 中 ，PCI 设备 进行 DMA 操作 时 ， 首 先 通过 
OCeaN ， 之 后 经 过 SoC 平台 总 线 到 达 DDR 控制 器 。 

OCeaN 是 MPC8548 处 理 器 中 连接 快速 外 设 使 用 的 交叉 互 连 总 线 ， 不 仅 可 以 连接 PCI、 
PCI -X 和 PCle 总 线 控制 器 ， 而 且 可 以 连接 RapidI02 总 线 控制 器 。 使 用 OCeaN 进行 互 连 的 
总 线 控制 器 可 以 直接 通信 ， 而 不 需要 通过 SoC 平台 总 线 。 
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加 MPC8548 也 将 FSB 称 为 CCB (Core Complex Bus)。 
四 PowerPC 处 理 器 并 没有 公开 其 SoC 平台 总 线 的 设计 规范 。ARM 提出 的 AMBA 总 线 是 一 条 典型 的 SoC 平台 总 线 。 
全 “RapidIO 总 线 是 由 Mercury Computer System 和 Motorola Semiconductor (目前 的 Freescale) 共同 提出 ， 于 解决 背 板 
互 连 的 一 条 外 部 总 线 。 
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如 来 自 HOST 主 桥 1 的 数据 报 文 可 以 通过 OCeaN 直接 发 向 HOST 主 桥 2， 而 不 需要 将 数 
据 通 过 SoC 平台 总 线 ， 再 进行 转发 ， 从 而 减轻 了 SoC 平台 总 线 的 负担 。OCeaN 部 件 的 拓扑 
结构 如 图 2-3 所 示 。 


OCeaN 接 口 


图 2-3 MPC8548 处 理 器 的 HOST 主 桥 


在 MPC8548 处 理 器 中 ， 有 两 个 HOST 主 桥 ， 分 别 是 HOST 主 桥 1 和 HOST 主 桥 2， 其 中 
HOST 主 桥 1 可 以 支持 PCI-X 总 线 ， 而 HOST 主 桥 2 只 能 支持 PCI 总 线 。 此 外 该 处 理 器 还 含 
有 多 个 PCIe 总 线 控制 器 。 

本 节 仅 介绍 HOST 主 桥 ， 即 MPC8548 处 理 絮 中 的 PCI 总 线 控制 器 ， 而 不 介绍 该 处 理 器 
的 PCIe 总 线 控制 器 。 因 为 从 软件 层面 上 看 ，MPC8548 处 理 器 的 PCIe 总 线 控制 器 与 PCIZPCT- 
X 总 线 控制 器 功能 类 似 。 

MPC8548 处 理 器 即 可 以 作为 PCI 总 线 的 HOST 处 理 器 ， 也 可 以 作为 PCI 总 线 的 从 设备 ， 
本 节 仅 讲述 MPC8548 处 理 器 如 何 作为 PCI 总 线 的 HOST 处 理 器 管理 PCI 总 线 树 ， 而 并 不 关 
心 MPC8548 处 理 器 作为 从 设备 的 情况 。 

在 MPC8548 人 处理 器 的 HOST 主 桥 中 ， 和 定义 了 一 系列 与 系统 软件 相关 的 寄存 器 。 本 节 将 
通过 介绍 这 些 寄 存 器 ， 说 明 这 个 HOST 主 桥 的 功能 。 困 于 篇 幅 ， 本 节 仪 介绍 与 HOST 主 桥 1 
相关 的 寄存 器 ，HOST 主 桥 2 使 用 的 寄存 器 与 HOST 主 桥 1 使 用 的 寄存 器 类 似 。 


2.2.1 PCI 设备 配置 空间 的 访问 机 制 


PCI 总 线 规定 访问 配置 空间 的 总 线 事务 ， 即 配置 读 写 总 线 事务 ， 使 用 ID 号 进行 寻 址 。 
PCI 设备 的 DD 号 由 总 线 号 (Bus Number) 、 设 备 号 (Device Number) 和 功能 号 
Number) 组 成 。 

其 中 总 线 号 在 HOST 主 桥 遍历 PCI 总 线 树 时 确定 。PCI 总 线 可 以 使 用 PCI 桥 扩展 PCI 总 
线 ， 并 形成 一 棵 PCI 总 线 树 。 在 一 棵 PCI 总 线 树 上 ， 有 几 个 PCI 桥 (包括 HOST 主 桥 ) ， 就 
有 几 条 PCI 总 线 。 在 一 棵 PCI 总 线 树 中 ， 总 线 号 由 系统 软件 决定 ， 通 常 与 HOST 主 桥 直接 相 
连 的 PCI 总 线 编号 为 0， 系 统 软件 使 用 DFS ( Depth-First Search) 算法 扫描 PCI 总 线 树 上 的 
所 有 PCI 总线， 并 依次 进行 编号 。 

一 条 PCI 总 线 的 设备 号 由 PCI 设备 的 IDSEL 信号 与 PCI 总 线 地 址 线 的 连接 关系 确定 ， 而 
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( Function 


功能 号 与 PCI 设备 的 具体 设计 相关 。 在 一 个 PCI 设备 中 最 多 有 8 个 功能 设备 ， 而 且 每 一 个 功 
能 设备 都 有 各 自 的 PCI 配置 空间 ， 而 在 绝 大 多 数 PCI 设备 中 只 有 一 个 功能 设备 。HOST 主 桥 
使 用 寄存 器 号 ,访问 PCI 设备 配置 空间 的 某 个 寄存 器 。 

在 MPC8548 处 理 器 的 HOST 主 桥 中 ， 与 PCI 设备 配置 空间 相关 的 寄存 器 由 CFG_ADDR 、 
CFG_DATA 和 INT_ACK 寄存 器 组 成 。 系 统 软 件 使 用 CFG_ADDR 和 CFG_DATA 寄存 器 访问 
PCI 设备 的 配置 空间 ， 而 使 用 INT_ACK 寄存 器 访问 挂 接 在 PCI 总 线 上 的 中 断 控制 器 的 中 断 


向 量 ，HOST 主 桥 这 3 个 寄存 器 的 地 址 偏 移 和 属性 如 表 2-1 所 示 。 
表 2-1 PCI 总 线 配 置 寄存 器 
Offset 寄 存 器 属 性 复 位 值 
0x0_8000 CFG_ADDR 可 读 写 0x0000-0000 
0x0_8004 CFG_DATA 可 读 写 0x0000-0000 
0x0_8008 INT_ACK 只 读 0x0000-0000 


在 MPC8548 处 理 器 中 ， 所 有 内 部 寄存 器 都 使 用 存储 器 映射 方式 进行 寻 址 ， 并 存放 在 以 
BASE_ADDRS 变 量 为 起 始 地 址 的 “1 MB 连续 的 物理 地 址 空间 ”中 。PowerPC 处 理 器 可 以 通 
过 BASE_ADDR + Offset 的 方式 访问 表 2-1 中 的 寄存 器 。 

MPC8548 处 理 器 使 用 CFG_ADDR 寄存 器 和 CFG_DATA 寄存 器 访问 PCI 设备 的 配置 空 
间 ， 其 中 用 CFG_ADDR 寄存 右 保 存 PCI 设备 的 ID 号 和 寄存 器 号 ， 该 寄存 髓 的 各 个 字段 的 详 
细 说 明 如 下 所 示 。 

e Enable 位 。 当 该 位 为 1 时 ，HOST 主 桥 使 能 对 PCI 设备 配置 空间 的 访问 ， 当 HOST 处 

理 器 对 CFC_DATA 寄存 器 进行 访问 时 ，HOST 主 桥 将 对 这 个 寄存 器 的 访问 转换 为 PCI 
配置 读 写 总 线 事务 并 发 送 到 PCI 总 线 上 。 

e Bus Number 字段 记录 PCI 设备 所 在 的 总 线 号 。 

e Device Number 字段 记录 PCI 设备 的 设备 号 。 

e Function Number 字段 记录 PCI 设备 的 功能 号 。 

e Register Number 字段 记录 PCI 设备 的 配置 寄存 吉 号 。 

MPC8548 处 理 需 访问 PCI 设备 的 配置 空间 时 ， 首 先 需要 在 CFG_ADDR 寄存 器 中 设置 这 
个 PCI 设 备 对 应 的 总 线 号 、 设 备 号 、 功 能 号 和 寄存 器 号 ， 然 后 使 能 Enable 位 。 之 后 当 
MPC8548 处 理 器 对 CFG_DATA 寄存 器 进行 读 写 访问 时 ，HOST 主 桥 将 这 个 存储 器 读 写 访问 
转换 为 PCI 配置 读 写 请 求 ， 并 发 送 到 PCI 总 线 上 。 如 果 Enable 位 没有 使 能 ， 处 理 器 对 CFG_ 
DATA 的 访问 不 过 是 一 个 普通 的 IO 访问 ，HOST 主 桥 并 不 能 将 其 转换 为 PCI 配置 读 写 请 求 。 

HOST 主 桥 根据 CFG_ADDR 寄存 器 中 的 ID 号， 生成 PCI 配置 读 写 总 线 事务 ， 并 将 这 个 
读 写 总 线 事 务 ， 通 过 ID 译 码 方式 发 送 到 指定 的 PCI 设备 。PCI 设备 将 接收 来 自 配 置 写 总 线 
事务 的 数据 ， 或 者 为 配置 读 总 线 事务 提供 数据 。 

值得 注意 的 是 ,在 PowerPC 处 理 器 中 , 在 CFG_DATA 寄存 器 中 保存 的 数据 采用 大 端 方 
式 进行 编 址 ， 而 PCI 设备 的 配置 寄存 器 采用 小 端 编 址 ， 因 此 HOST 主 桥 需要 进行 端 模式 转 
换 。 下 面 以 源 代码 2-1 为 例 说 明 PowerPC 处 理 器 如 何 访问 PCI 配置 空间 。 


在 MPC8548 处 理 器 中 ，BASE_ADDR 存放 在 CCSRBAR 寄存 器 中 。 


34 


源 代码 2-1 PowerPC 处 理 器 访问 PCI 配置 空间 


stw 10,0(rl) 
ld 13,0(12) 


首先 假设 寄存 器 zl 的 初始 值 为 BASE_ADDR + 0x0_8000 ( 即 CFG_ADDR 寄存 器 的 地 
址 ) ， 寄 存 器 20 的 初始 值 为 0x8000-0008 ， 寄 存 器 冯 的 初始 值 为 BASE_ADDR + 0x0_8004 
( 即 CFG_DATA 寄存 器 的 地 址 ) ， 而 指定 PCI 设备 〈 总 线 号 、 设 备 号 、 功 能 号 都 为 0) 的 配 
置 寄存 器 的 0x0B ~ 0x08 中 的 值 为 0x9988-7766。 

这 段 源 代码 的 执行 步 又 如 下 。 

(1) 将 0 寄存 器 赋值 到 rl 寄存 器 所 指向 的 地 址 空间 中 ， 即 初始 化 CFG_ADDR 寄存 器 为 
0x8000-0008 。 

(2) 从 了 冯 寄存 器 所 指向 的 地 址 空间 中 读 取 数据 到 13 寄存 器 中 ， 即 从 CFG_DATA 寄存 器 
中 读 取 数据 到 13 寄存 器 。 

在 MPC8548 处 理 器 中 ， 源 代码 2-1 执行 完毕 后 ， 寄 存 器 13 保存 的 值 为 0x6677-8899 ， 
而 不 是 0x9988-6677。 系 统 程序 员 在 使 用 这 个 返回 值 时 ， 一 定 要 注意 大 小 端 模式 的 转换 。 值 
得 注意 的 是 ， 源 代码 2-1 可 以 使 用 lwbrx 指令 进行 优化 ， 该 指令 可 以 在 读 取 数据 的 同时 ， 进 
行 大 小 端 模式 的 转换 。 

人 处理 器 读 取 INT_ACK 寄存 器 时 ，HOST 主 桥 将 这 个 读 操 作 转 换 为 PCI 总 线 中 断 响应 事 
务 。PCI 总 线 中 断 响应 事务 的 作用 是 通过 PCI 总 线 读 取 中 断 控 制 器 的 中 断 向 量 号 ， 这 样 做 的 
前 提 是 中 断 控制 器 需要 连接 在 PCI 总 线 上 。 

PowerPC 处 理 器 使 用 的 MPIC 中 断 控 制 器 不 是 挂 接 在 PCI 总 线 上 ， 而 是 挂 接 在 SoC 平台 
总 线 上 ， 因 此 PCI 总 线 提供 的 中 断 应 答 事 务 在 这 个 处 理 器 系统 中 并 没有 太 大 用 途 。 但 是 并 不 
排除 某 些 PowerPC 处 理 器 系统 使 用 了 挂 接 在 PCI 总 线 上 的 中 断 控制 器 ， 比 如 PCI 南 桥 芯 片 ， 
此 时 PowerPC 处 理 器 系统 需要 使 用 中 断 应 答 事务 读 取 PCI 南 桥 中 的 中 断 控制 器 ， 以 获取 中 断 


向 量 号 。 
2.2.2 存储器 域 地 址 空间 到 PCI 总 线 域 地 址 空间 的 转换 


MPC8548 人 处理 如 使 用 ATMU ( Address Translation and Mapping Unit) 寄存 需 组 进行 存储 器 
域 到 PCI 总 线 域 ， 以 及 PCI 总 线 域 到 存储 器 域 的 地 址 映射 。ATMU 寄存 器 组 由 两 大 组 寄存 器 组 
成 ,分别 为 Outbound 和 Inbound 寄存 需 组 。 其 中 Outbound 寄存 需 组 将 存储 需 域 的 地 址 转换 为 
PCI 总 线 域 的 地 址 ， 而 Inbound 寄存 器 组 将 PCI 总 线 域 的 地 址 转换 为 存储 器 域 的 地 址 。 

在 MPC8548 处 理 器 中 ， 只 有 当 CPU 读 写 访问 的 地 址 范围 在 Outbound 寄存 器 组 管理 的 地 
址 空间 之 内 时 ，HOST 主 桥 才 能 接收 CPU 的 读 写 访问 ， 并 将 CPU 在 存储 器 域 上 的 读 写 访问 
转换 为 PCI 总 线 域 上 的 读 写 访问 ， 然 后 才能 对 PCI 设备 进行 读 写 操作 。 

如 图 2-2 所 示 ，CPU 对 存储 器 域 的 地 址 访问 ， 首 先 使 用 CCB 总 线 事务 ， 如 果 所 访问 的 
地 址 在 Cache 中 命中 ， 则 从 Cache 中 直接 获得 数据 ， 否 则 将 从 存储 器 域 中 获取 数据 。 而 在 绝 
大 多 数 情况 下 ， 外 部 设备 使 用 的 地 址 空间 是 不 可 Cache? 的 ， 所 以 发 向 PCI 设备 的 CCB 总 线 


PCI 设备 使 用 的 ROM 空间 可 以 是 “可 Cache” 的 地 址 空间 。 
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事务 通常 不 会 与 Cache 进行 数据 交换 。 

如 果 CCB 总 线 事务 使 用 的 地 址 在 HOST 主 桥 的 Outbound 寄存 器 窗口 中 命中 ，HOST 主 
桥 将 接收 这 个 CCB 总 线 事 务 ， 并 将 其 转换 为 PCI 总 线 事务 之 后 ， 再 发 送 到 PCI 总 线 上 。 
MPC8548 处 理 器 的 每 一 个 HOST 主 桥 都 提供 了 5 个 Outbound 寄存 器 窗口 来 实现 存储 器 域 地 
址 到 PCI 总 线 域 地 址 的 映射 ， 其 映射 过 程 如 图 2-4 所 示 。 


Outbound 寄 存 器 组 


来 自 OCeaN 的 发 向 PCI-X 总 线 
36 位 地 址 的 64 位 地 址 


图 2-4 MPC8548 处 理 器 存储 需 域 到 PCI 域 的 转换 
在 介绍 MPC8548 处 理 器 如 何 使 用 Outbound 寄存 器 组 进行 存储 器 域 地 址 空间 到 PCI 总 线 
域 地 址 空间 的 转换 之 前 ， 本 节 将 首先 介绍 Outbound 寄存 器 组 中 的 相应 寄存 器 。Outbound 寄 
存 絮 组 的 地 址 偏 移 、 属 性 和 复位 值 如 表 2-2 所 示 。 
表 2-2 PCI/X ATMU Outbound 寄存 器 组 


地 址 偏 移 寄存 器 名 属 性 复 位 值 
0x0_8C00/20/40/60/80 POTARn 可 读 写 0x0000-0000 
0x0_8C04/24/44/64/84 POTEARn 可 读 写 0x0000-0000 

0x0_8C28/48/68/88 POWBARn 可 读 写 0x0000-0000 
0x0_8C30/50/70/90 POWARn 可 读 写 0x0000-0000 


1，POTARn 和 POTEARn 寄存 器 

在 POTARn 和 POTEARn 寄存 器 中 保存 当前 Outbound 窗口 在 PCI 总 线 域 中 的 64 位 地 址 
空间 的 基地 址 。 这 两 个 寄存 器 的 主要 字段 如 下 。 

e POTARn 寄存 器 的 TEA 字段 ,第 0~11 位 ,保存 PCI 总 线 地 址 空间 的 43 ~32 位 。 

e POTARn 寄存 器 的 TA 字段 ,第 12 ~31 位 ， 保 存 PCI 总 线 地 址 空间 的 31 ~12 位 2 。 

e POTEARn 寄存 器 的 TEA 字段 ， 第 12 ~31 位 ， 保 存 PCI 总 线 地 址 空间 的 63 ~44 位 。 

2，POWBARn 寄存 器 和 POWARn 寄存 器 

而 POWBARn 寄存 器 保存 当前 Outbound 窗口 在 存储 器 域 中 的 36 位 地 址 空间 的 基地 址 2 ， 
其 主要 字段 如 下 。 

。 WBEA 字段 保存 存储 器 域 地 址 的 第 0 ~3 位 。 

e WBA 字段 保存 存储 器 域 地 址 的 第 4 ~232 位 。 


”POTARn 寄存 器 没有 保存 PCI 总 线 的 11 ~0 位 ， 因 为 Outbound 窗口 大 小 至 少 为 4 KB。 
四 MPC8548 处 理 器 的 物理 地 址 为 36 位。 注意 在 PowerPC 处 理 嚣 中， 第 0 位 是 地 址 的 最 高 位 。 
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四 WBA 字段 并 没有 保存 存储 器 域 的 第 24 ~35 位 地 址 ， 因 为 Outbound 窗口 大 小 至 少 为 4 KB 的 整数 倍 。 
30 


POWARn 寄存 器 描述 Outbound 窗口 的 属性 ， 其 主要 字段 如 下 。 

e。 EN 位 ,第 0 位 。 该 位 是 Outbound 窗口 的 使 能 位 ， 为 1 表示 当前 Outbound 寄存 器 组 描 
述 的 存储 器 地 址 空间 到 PCI 总 线 地 址 空间 的 映射 关系 有 效 ; 为 0 表示 无 效 。 

。 RTT 字段 ， 第 12 ~ 15 位 ， 该 字段 描述 当前 窗口 的 读 传送 类 型 ， 为 0b0100 表示 存储 器 
读 ， 为 0b1000 表示 IO 读 。 

。 WTT 字段 ， 第 16 ~ 19 位 ， 该 字段 描述 当前 窗口 的 写 传送 类 型 ， 为 0b0100 表示 存储 器 
写 ， 为 0b1000 表示 LO 写 。 在 PCle 总 线 控制 器 中 ，RTT 字段 和 WTT 字段 还 可 以 文 
持 对 配置 空间 的 读 写 操作 。 

e OWS 字段 ,第 26 ~31 位 ， 该 字段 描述 当前 窗口 的 大 小 ，Outbound 窗口 的 大 小 在 
4 KB ~64 GB 之 间 ， 其 值 为 2 *!。 

3. 使 用 Outbound 寄存 器 访问 PCI 总 线 地 址 空间 

MPC8548 处 理 器 使 用 Outbound 寄存 器 组 访问 PCI 总 线 地 址 空间 的 步骤 如 下 。 

(1) 首先 MPC8548 处 理 器 需要 将 程序 使 用 的 32 位 有 效 地 址 EA (Effective Address) 转 
换 为 41 位 的 虚拟 地 址 VA (Virtual Address) 。E500 V2 内 核 不 能 关闭 MMU (Memory Manage- 
ment Unit) ， 因 此 不 能 直接 访问 物理 地 址 。 

(2) MPC8548 处 理 器 通过 MMU 将 41 位 的 虚拟 地 址 转换 为 36 位 的 物理 地 址 。 在 E500 
V2 内 核 中 ， 物 理 地 址 是 36 位 〈 缺 省 是 32 位 ， 需 要 使 能 ) 。 

(3) 检查 LAWBAR 和 LAWAR 寄存 器 ， 判 断 当 前 36 位 的 物理 地 址 是 否 属于 PCI 总 
线 空间 。 在 MPC8548 中 定义 了 一 组 LAWBAR 和 LAWAR 寄存 器 对 ， 每 一 对 寄存 器 描述 
当前 物理 空间 是 与 PCI 总 线 、PCIe 总 线 、DDR 还 是 RapidI0 空间 对 应 。 该 组 寄存 器 的 
详细 说 明 见 MPC8548 PowerQUICC II Integrated Host Processor Family Reference Manual。 
如 果 CPU 访问 的 空间 为 PCI 总 线 空间 ， 则 执行 第 (4) 步 ， 否 则 处 理 器 将 不 会 访问 PCI 
地 址 空间 。 

(4) 判断 当前 36 位 物理 地 址 是 否 在 POWBARn 寄存 器 1 ~4 描述 的 窗口 中 ， 如 果 在 则 将 
36 位 的 处 理 器 物理 地 址 通过 寄存 器 POTARn 和 POTEARn 转换 为 64 位 的 PCI 总 线 地 址 ， 然 
后 HOST 主 桥 将 来 自 处 理 器 的 读 写 请 求 发 送 到 PCI 总 线 上 ; 如 果 不 在 POWBARn 寄存 器 1 ~4 
描述 的 窗口 中 ，POWBARO 寄存 器 作为 缺 省 窗口 ， 接 管 这 个 存储 器 访问 ， 并 使 用 寄存 器 PO- 
TARO 和 POTEAR0 ， 将 处 理 器 物理 地 址 转换 为 PCI 总 线 地 址 ， 当 然 在 正常 设计 中 很 少 出 现 这 
种 情况 。 

许多 系统 软件 ， 将 Outbound 窗口 两 边 的 寄存 器 使 用 “直接 相等 ”的 方法 进行 映射 ， 将 
存储 器 域 的 地 址 与 PCI 总 线 地 址 设 为 相同 的 值 。 但 是 系统 软件 程序 员 务必 注意 这 个 存储 器 地 
址 与 PCI 总 线 地 址 是 分 属于 存储 器 域 与 PCI 总 线 域 的 ， 这 两 个 值 虽然 相等 ,但 是 所 代表 的 地 
址 并 不 相同 ， 一 个 属于 存储 器 域 ， 而 另 一 个 属于 PCI 总 线 域 。 


2.2.3 PCI 总 线 域 地 址 空间 到 存储 器 域 地 址 空间 的 转换 


MPC8548 处 理 器 使 用 Inbound 寄存 器 组 将 PCI 总 线 域 地 址 转换 为 存储 器 域 的 地 址 。PCI 
设备 进行 DMA 读 写 时 ， 只 有 访问 的 地 址 在 Inbound 窗口 中 时 ，HOST 主 桥 才 能 接收 这 些 读 写 
请 求 ， 并 将 其 转发 到 存储 器 控制 器 。MPC8548 处 理 器 提供 了 3 组 Inbound 寄存 器 ， 即 提供 3 
个 Inbound 寄存 器 窗口 ， 实 现 PCI 总 线 地 址 到 存储 器 地 址 的 反 向 映射 。 
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从 PCI 设备 的 角度 来 看 ，PCI 设备 访问 存储 器 域 的 地 址 空间 时 ， 首 先 需 要 通过 Inbound 
窗口 将 PCI 总 线 地 址 转换 为 存储 器 域 的 地 址 ; 而 从 处 理 器 的 角度 来 看 ， 处 理 器 必须 将 存储 器 
地 址 通过 Inbound 寄存 器 组 反 向 映射 为 PCI 总 线 地 址 空间 ， 才 能 被 PCI 设备 访问 。 

PCI 设备 只 能 使 用 PCI 总 线 地 址 访问 PCI 总 线 域 的 地 址 空间 。HOST ee 
间 通 过 Inbound 窗口 转换 为 存储 器 域 的 地 址 之 后 ，PCI 设备 才能 访问 存储 器 域 地 址 空间 。 

个 地 址 转换 过 程 如 图 2-5 所 示 。 


Inbound 寄 存 器 组 


发 向 OCeaN 的 来 自 PCI-X 总 线 
36 位 地 址 的 64 位 地 址 


图 2-5 MPC8548 处 理 器 PCI 域 到 存储 器 域 的 转换 


在 介绍 MPC8548 处 理 器 如 何 使 用 Inbound 寄存 需 组 进行 PCI 总 线 域 地 址 空间 到 存储 器 域 
地 址 空间 的 转换 之 前 ， 我 们 首先 简要 介绍 mbound 寄存 器 组 中 的 相应 寄存 器 。 该 组 寄存 器 的 
地 址 偏 移 、 属 性 和 复位 值 如 表 2-3 所 示 。 


表 2-3 PCI/X ATMU Inbound 寄存 器 组 


Offset 寄存 器 名 属 性 复 位 值 
0x0_8DAO/CO/EO PITARn 可 读 写 0x0000-0000 
0x0_8DA8/C8/E8 PIWBARn 可 读 写 0x0000-0000 

0x0_8DAC/CC PIWBEARn 可 读 写 0x0000-0000 
0x0_8DBOZDOZTF0 PIWARn 可 读 写 0x0000-0000 


值得 注意 的 是 ，Inbound 寄存 器 组 除了 可 以 进行 PCI 总 线 地 址 空间 到 存储 器 域 地 址 空间 
的 转换 之 外 ， 还 可 以 转换 分 属 不 同 PCI 总 线 域 的 地 址 空间 ， 以 支持 PCI 总 线 的 Peer-to-Peer 
数据 传送 方式 。 

1. PITARn 寄存 器 

PITARn 寄存 器 保存 当前 Inbound 窗口 在 存储 需 域 中 的 36 位 地 址 空间 的 基地 址 ， 其 地 址 
窗口 的 大 小 至 少 为 4KB， 因 此 在 该 寄存 器 中 仪 存放 存储 器 域 地 址 的 第 0 ~ 23 位 ， 该 寄存 带 
的 主要 字段 如 下 所 示 。 

e TEA 字段 存放 存储 右 地 址 空间 的 第 0 ~3 位 。 

e TA 字段 存放 存储 器 地 址 空间 的 第 4 ~23 位 。 

2. PIWBARn 和 PIWBEARn 寄存 器 

PIWBARn 和 PIWBEARn 寄存 器 保存 当前 Inbound 窗口 在 PCI 总 线 域 中 的 64 位 地 址 空间 
的 基地 址 的 第 63 ~12 位 ，Inbound 窗口 使 用 的 最 小 地 址 空间 为 4KB， 因 此 在 这 两 个 寄存 器 
中 不 含有 PCI 总 线 地 址 空间 的 第 11 ~0 位。 这 两 个 寄存 器 的 主要 字段 如 下 所 示 。 

e PIWBARn 寄存 器 的 BEA 字段 存放 PCI 总 线 地 址 空间 的 第 43 ~32 位 。 

e PIWBARn 寄存 器 的 BA 字段 存放 PCI 总 线 地 址 空间 的 第 31 ~ 12 位 。 
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e PIWBEARn 寄存 器 的 BEA 字段 存放 PCI 总 线 地 址 空间 的 第 63 ~44 位 。 

3，PIWARn 寄存 器 

PIWARn 寄存 器 描述 当前 Inbound 窗口 的 属性 ， 该 寄存 器 由 以 下 位 和 字段 组 成 。 

e。 EN 位， 第 0 位 。 该 位 是 mbound 窗口 的 使 能 位 ,为 1 表示 当前 Inbound 寄存 器 组 
的 存储 器 地 址 空间 到 PCI 总 线 地 址 空间 的 映射 关系 有 效 ; 为 0 表示 无 效 。 

e PF 位 ， 第 2 位 。 该 位 为 1 表示 当前 Inbound 窗口 描述 的 存储 区 域 支持 预 读 ; 为 0 
不 支持 预 读 。 

e TGI 字段 ， 第 8 ~11 位 。 该 字段 为 0b0010 表示 当前 Inbound 窗口 描述 的 存储 区 域 


描述 


表示 


属于 


PCle 总 线 域 地 址 空间 ; 为 0b1100 表示 当前 Inbound 窗口 描述 的 存储 区 域 属 于 RapidIO 


总 线 域 地 址 空间 。 该 字段 对 于 0CeaN 实现 不 同 域 间 的 报 文 转发 非常 重要 ， 如 果 


Inbound 窗口 的 TGI 字段 为 0b0010， 此 时 PCI 总 线 上 的 设备 可 以 使 用 该 mbound 窗口 ， 


通过 OCeaN 直接 读 取 PCIe 总 线 的 地 址 空间 ， 而 不 需要 经 过 SoC 平台 总 线 。 如 果 TGI 


字段 为 0b1111 表示 Inbound 窗口 描述 的 存储 器 区 域 属于 主 存储 融 地 址 空间 ， 这 也 是 最 


常用 的 方式 。 使 用 该 字段 可 以 实现 HOST 主 桥 的 Peer-to-Peer 数据 传送 方式 。 
RTT 字段 和 WTT 字段 ， 分 别 为 该 寄存 器 的 第 12 ~15 位 和 第 16 ~ 19 位 。Inbound 


窗口 


的 RTIZWTT 字段 的 含义 与 Outbound 窗口 的 RTTAWTT 字段 基本 类 似 。 只 是 在 Inbound 
窗口 中 可 以 规定 PCI 设备 访问 主 存储 器 时 ， 是 否 需要 进行 Cache 一 致 性 操作 ( Cache 


Lock and Allocate) ， 在 进行 DMA 写 操作 时 ， 数 据 是 否 可 以 直接 进入 Cache。 该 字段 是 


PowerPC 处 理 硕 对 PCI 总 线 规范 的 有 效 补 充 ， 由 于 该 字段 的 存在 ，PowerPC 处 理 
PCI 设备 可 以 将 数据 直接 写 人 Cache， 也 可 以 视 情况 决定 DMA 操作 是 否 需 要 
Cache 共享 一 致 性 操作 。 


伪 的 
进行 


e IWS 字段 ,第 26 ~31 位 。 该 字段 描述 当前 窗口 的 大 小 ，Inbound 窗口 的 大 小 在 4 KB ~ 


16 GB 之 间 ， 其 值 为 2™*'。 
4 使 用 Inbound 寄存 器 组 进行 DMA 操作 
PCI 设备 使 用 DMA 操作 访问 主 存储 器 空间 ， 或 者 访问 其 他 PCI 总 线 域 地 址 空间 时 
要 通过 Inbound 窗口 ， 其 步骤 如 下 。 


后 已 
， TI 


(1) PCI 设 备 在 访问 主 存储 器 空间 时 ， 将 首先 检查 当前 PCI 总 线 地 址 是 否 在 PIW- 
BARn 和 PIWBEARn 寄存 器 描述 的 窗口 中 。 如 果 在 这 个 窗口 中 ， 则 将 这 个 PCI 总 线 地 址 


止 本 次 访问 。 

(2) 如 果 PCI 设备 访问 的 是 存储 器 地 址 空间 ，HOST 主 桥 将 来 自 PCI 总 线 的 读 写 请 
送 到 存储 器 空间 ， 进 行 存储 器 读 写 操作 ， 并 根据 Inbound 寄存 器 组 的 RTTAWTT 位 决定 
需要 进行 Cache 一 致 性 操作 ， 或 者 将 数据 直接 写 人 到 Cache 中 。 

结合 Outbound 寄存 器 组 ， 可 以 发 现 PCI 总 线 地 址 空间 与 存储 右 地 址 空间 是 有 一 定 
的 。 如 果 存 储 器 域 地 址 空间 被 Inbound 寄存 器 组 反 向 映射 到 PCI 空间 ， 这 个 存储 器 地 址 
两 个 地 址 ， 一 个 是 在 存储 器 域 的 地 址 ， 一 个 是 在 PCI 总 线 域 的 地 址 ; 同 理 PCI 总 线 空间 


通过 PITARn 寄存 器 转换 为 存储 器 域 的 地 址 或 者 其 他 PCI 总 线 域 的 地 址 ; 如 果 不 在 将 禁 


自 
是 否 


联系 
具有 
的 地 


址 如 果 使 用 Outbound 寄存 器 映射 到 寄存 器 地 址 空间 ， 这 个 PCI 总 线 地 址 也 具有 两 个 地 址 ， 


一 个 是 在 PCI 总 线 域 的 地 址 ， 一 个 是 在 存储 器 域 的 地 址 。 
能 够 被 处 理 器 和 PCI 总 线 同 时 访问 的 地 址 空间 ， 一 定 在 PCI 总 线 域 和 存储 央 域 中 都 


存在 
39 


地 址 映射 。 再 次 强调 ， 绝 大 多 数 操作 系统 将 同一 个 空间 的 PCI 总 线 域 地 址 和 存储 器 地 址 设 为 
相同 的 值 ， 但 是 这 两 个 相同 的 值 所 代表 的 含义 不 同 。 

由 此 可 以 看 出 ， 如 果 MPC8548 处 理 器 的 某 段 存储 器 区 域 没 有 在 Inbound 窗口 中 定义 时 ， 
PCI 设备 将 不 能 使 用 DMA 机 制 访问 这 段 存储 器 空间 ; 同 理 如 果 PCI 设备 的 空间 不 在 Out- 
bound 窗口 ，HOST 处 理 需 也 不 能 访问 这 段 PCI 地 址 空间 。 

在 绝 大 多 数 PowerPC 处 理 吉 系统 中 ，PCI 设备 地 址 空间 都 在 HOST 主 桥 的 Outbound 窗口 
中 建立 了 上 映射; 而 MPC8548 处 理 器 可 以 选择 将 哪些 主 存储 需 空 间 共 享 给 PCI 设备 ， 从 而 对 
主 存储 器 空间 进行 保护 。 


2.2.4 ”x86 处 理 器 的 HOST 主 桥 


x86 处 理 器 使 用 南北 桥 结构 连接 CPU 和 PCI 设备 。 其 中 北桥 ( North Bridge) 连接 快速 
设备 ， 如 显卡 和 内 存 条 ， 并 推出 PCI 总 线 ，HOST 主 桥 包含 在 北桥 中 。 而 南 桥 (South 
Bridge) 连接 慢 速 设备 。x86 处 理 器 使 用 的 南北 桥 结构 如 图 2-6 所 示 。 


PCI 总 线 
South Bridge PCI 插 槽 PCI 插 槽 


图 2-6 x86 处 理 器 的 南北 桥 结构 


Intel 使 用 南北 桥 概念 统一 PC 架构 。 但 是 从 体系 结构 的 角度 上 看 ， 南 北桥 架构 并 不 重 
要 ,北桥 中 存放 的 主要 部 件 不 过 是 存储 器 控制 器 、 显 卡 控制 器 和 HOST 主 桥 而 已 ， 而 南 桥 存 
放 的 是 一 些 慢 速 设备 ， 如 ISA 总 线 和 中 断 控制 器 等 。 

不 同 的 处 理 需 系统 集成 这 些 组 成 部 件 的 方式 并 不 相同 ， 如 PowerPC、MIPS 和 ARM 处 理 
器 系统 通常 将 CPU 和 主要 外 部 设备 都 集成 到 一 颗 芯 片 中 ， 组 成 一 颗 基于 SoC 架构 的 处 理 器 
系统 。 这 些 集 成 方式 并 不 重要 ， 每 一 个 处 理 需 系统 都 有 其 针对 的 应 用 领域 ， 不 同 应 用 领域 的 
需求 对 处 理 器 系统 的 集成 方式 有 较 大 的 影响 。Intel 采用 的 南北 桥架 构 针对 x86 处 理 器 的 应 用 
领域 而 设计 ， 并 不 能 说 采用 这 种 结构 一 定 比 MPC8548 处 理 器 中 既 含 有 HOST-to-PCI 主 桥 也 
含有 HOST-to-PCIe 主 桥 更 为 合理 。 

在 许多 般 入 式 处 理 器 系统 中 ， 既 含有 PCI 设备 也 含有 PCle 设备 ， 为 此 MPC8548 处 理 器 
同时 提供 了 PCI 总 线 和 PCIle 总 线 接口 ， 在 这 个 处 理 器 系统 中 ，PCI 设备 可 以 与 PCI 总 线 直 接 
相连 ， 而 PCle 设备 可 以 与 PCIe 总 线 直接 相连 ， 因 此 并 不 需要 使 用 PCIe 桥 扩展 PCI 总 线 ， 
从 而 在 一 定 程度 上 简化 了 构 入 式 系统 的 设计 。 

能 和 人 式 系统 所 面 对 的 应 用 千变万化 ， 进 行 芯片 设计 时 所 要 考虑 的 因素 相对 较 多 ， 因 而 在 
某 种 程度 上 为 设计 带 来 了 一 些 难 度 。 而 x86 处 理 器 系统 所 面 对 的 应 用 领域 针对 个 人 PC 和 服 
务 器 ， 向 前 兼容 和 通用 性 显得 更 加 重要 。 在 多 数 情况 下 ， 一 个 通用 处 理 器 系统 的 设计 难度 超 
过 专用 处 理 器 系统 的 设计 ，Intel 为 此 付出 了 极 大 的 代价 。 
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在 一 些 相 对 较 老 的 北桥 中 ， 如 Intel 440 系列 芯片 组 中 包含 了 HOST 主 桥 ， 从 系统 软件 的 
角度 上 看 HOST-to-PCI 主 桥 实现 的 功能 与 HOST-to-PCIe 主 桥 实现 的 功能 相近 。 本 节 仅 简单 介 
绍 Intel 的 HOST-to-PCI 主 桥 如 何 产生 PCI 的 配置 周期 ， 有 关 Intel HOST-to-PCle 主 桥 的 详细 
言 息 参见 第 5 章 。 

x86 处 理 器 定义 了 两 个 IO 端口 寄存 器 ， 分 别 为 CONFIG_ADDRESS 和 CONFIG_DATA 
寄存 器 ， 其 地 址 为 0xCF8 和 0xCFC。x86 处 理 右 使 用 这 两 个 VO 端口 访问 PCI 设备 的 配置 空 
间 。PCI 总 线 规范 也 以 这 两 个 寄存 器 为 例 ， 说 明 处 理 器 如 何 访问 PCI 设备 的 配置 空间 。 其 中 
CONFIG_ADDRESS 寄存 器 存放 PCI 设备 的 ID 号 ， 而 CONFIG_DATA 寄存 器 存放 进行 配置 读 
写 的 数据 。 

CONFIG_ADDRESS 寄存 器 与 PowerPC 处 理 器 中 的 CFG_ADDR 寄存 器 的 使 用 方法 类 似 ， 
而 CONFIG_DATA 寄存 器 与 PowerPC 处 理 器 中 的 CFG_DATA 寄存 右 的 使 用 方法 类 似 。CON- 
FIG_ADDRESS 寄存 器 的 结构 如 图 2-7 所 示 。 


31 30 24 23 16 15 11 10 8 7 2 1 0 


Reserved Bus Number Deyice Register Number 
Number 


Enable bit(1=enabled, 0=disabled) Function Number 


图 2-7 CONFIG_ADDRESS 寄存 器 的 结构 


CONFIG_ADDRESS 寄存 器 的 各 个 字段 和 位 的 说 明 如 下 所 示 。 
e Enable 位， 第 31 位 。 该 位 为 1 时 ， 对 CONFIG_DATA 寄存 器 进行 读 写 时 将 引发 PCI 
总 线 的 配置 周期 。 

e Bus Number 字段 ， 第 23 ~ 16 位 ， 记 录 PCI 设备 的 总 线 号 。 

e Device Number 字段 ,第 15 ~11 位 ,记录 PCI 设备 的 设备 号 。 

e Function Number 字段 , 第 10 ~8 位 ， 记 录 PCI 设备 的 功能 号 。 

e Register Number 字段 ， 第 7 ~2 位 ， 记 录 PCI 设备 的 寄存 器 号 。 

当 x86 处 理 器 对 CONFIG_DATA 寄存 器 进行 WO 读 写 访问 ， 且 CONFIG_ADDR 寄存 器 的 
Enable 位 为 1 时 ，HOST 主 桥 将 这 个 IO 读 写 访问 转换 为 PCI 配置 读 写 总 线 事务 ， 然 后 发 送 
到 PCI 总 线 上 ，PCI 总 线 根据 保存 在 CONFIG_ADDR 寄存 器 中 的 ID 号, 将 PCI 配置 读 写 请 
求 发 送 到 指定 PCI 设备 的 指定 配置 寄存 器 中 。 

x86 处 理 器 使 用 小 端 地 址 模式 ， 因 此 从 CONFIG_DATA 寄存 器 中 读 出 的 数据 不 需要 进行 
模式 转换 ， 这 点 和 PowerPC 处 理 器 不 同 ， 此 外 x86 处 理 器 的 HOST 主 桥 也 实现 了 存储 器 域 到 
PCI 总 线 域 的 地 址 转换 ， 但 是 这 个 概念 在 x86 处 理 器 中 并 不 明晰 。 

本 书 将 在 第 $ 章 以 HOST-to-PCle 主 桥 为 例 ， 详 细 介绍 Intel 处 理 需 的 存储 器 地 址 与 PCI 
总 线 地 址 的 转换 关系 ， 而 在 本 节 不 对 x86 处 理 器 的 HOST 主 桥 做 进一步 说 明 。x86 处理 髓 系 
统 的 升级 速度 较 快 ， 目 前 在 x86 的 处 理 器 体系 结构 中 ， 已 很 难 发 现 HOST 主 桥 的 身影 。 

目前 Intel 对 南北 桥架 构 进 行 了 升级 ， 其 中 北桥 被 升级 为 MCH (Memory Controller Hub ) ， 
而 南 桥 被 升级 为 ICH (IO Controller Hub)。x86 处 理 器 系统 在 MCH 中 集成 了 存储 器 控制 器 、 


”这 个 HOST-to-PCIe 主 桥 也 是 RC (Root Complex ) 的 一 部 分 。 


347 


显卡 芯片 和 HOST-to-PCIe 主 桥 ， 并 通过 Hub Link 与 ICH 相连 ;而 在 ICH 中 集成 了 一 些 相 对 
低速 总 线 接口 ， 如 AC'97 、LPC (Low Pin Count) 、IDE 和 USB 总线， 当然 也 包括 一 些 低 带 
宽 的 PCIe 总 线 接口 。 

在 Intel 最 新 的 Nehalem2 处理 器 系统 中 ，MCH 被 一 分 为 二 ， 存 储 器 控制 器 和 图 形 控制 器 
已 经 与 CPU 内 核 集 成 在 一 个 DIE 中 ， 而 MCH 剩余 的 部 分 与 ICH 合并 成 为 PCH (了 Peripheral 
Controller Hub) 。 但 是 从 体系 结构 的 角度 上 看 ， 这 些 升级 与 整合 并 不 重要 。 

目前 Intel 在 Menlow“ 平 台 基 础 上 ， 计划 推出 基于 SoC 架构 的 x86 处 理 器 ， 以 进军 手持 
设备 市 场 。 在 基于 SoC 构架 的 x86 处 理 右 中 将 逐渐 淡化 Chipset 的 概念 ， 其 拓扑 结构 与 典型 
的 SoC 处 理 器 ， 如 ARM 和 PowerPC 处 理 器 ， 较 为 类 似 。 


2.3 PCI 桥 与 PCI 设备 的 配置 空间 


PCI 设备 都 有 独立 的 配置 空间 ，HOST 主 桥 通 过 配置 读 写 总 线 事务 访问 这 段 空间 。PCI 
总 线 规定 了 三 种 类 型 的 PCI 配置 空间 ， 分 别 是 PCI Agent 设备 使 用 的 配置 空间 ，PCI 桥 使 用 
的 配置 空间 和 Cardbus 桥 片 使 用 的 配置 空间 。 

本 节 重 点 介绍 PCI Agent 和 PCI 桥 使 用 的 配置 空间 ， 而 并 不 介绍 Cardbus 桥 片 使 用 的 配 

空间 。 值 得 注意 的 是 ， 在 PCI 设备 配置 空间 中 出 现 的 地 址 都 是 PCI 总 线 地 址 ， 属 于 PCI 总 
0 sx 间 。 


2.3.1 PCI 桥 


PCI 桥 的 引入 使 PCI 总 线 极 具 扩展 性 ， 也 极 大 地 增加 了 PCI 总 线 的 复杂 度 。PCI 总 线 的 
电气 特性 决定 了 在 一 条 PCI 总 线 上 挂 接 的 负载 有 限 ， 当 PCI 总 线 需 要 连接 多 个 PCI 设备 时 ， 
需要 使 用 PCI 桥 进行 总 线 扩展 ， 扩 展 出 的 PCI 总 线 可 以 连接 其 他 PCI 设备 ,包括 PCI 桥 。 在 
一 棵 PCI 总 线 树 上， 最 多 可 以 挂 接 256 个 PCI 设备， 包括 PCI 桥 。PCI 桥 在 PCI 总 线 树 中 的 
位 置 如 图 2-8 所 示 。 

PCI 桥 作 为 一 个 特殊 的 PCI 设备 ， 具 有 独立 的 配置 空间 。 但 是 PCI 桥 配 置 空间 的 定义 与 
PCI Agent 设备 有 所 不 同 。PCI 桥 的 配置 空间 可 以 管理 其 下 PCI 总 线 子 树 的 PCI 设备 ， 并 可 以 
优化 这 些 PCI 设备 通过 PCI 桥 的 数据 访问 。PCI 桥 的 配置 空间 在 系统 软件 遍历 PCI 总 线 树 时 
进行 配置 ， 系 统 软件 不 需要 专门 的 驱动 程序 设置 PCI 桥 的 使 用 方法 ， 这 也 是 PCI 桥 被 称 为 透 
明 桥 的 主要 原因 。 

在 某 些 处 理 器 系统 中 ， 还 有 一 类 PCI 桥 ， 叫 做 非 透 明 桥 。 非 透明 桥 不 是 PCI 总 线 定义 的 
标准 桥 片 ， 但 是 在 使 用 PCI 总 线 挂 接 另 外 一 个 处 理 器 系统 时 非常 有 用 ， 非 透明 桥 片 的 主要 作 
用 是 连接 两 个 不 同 的 PCI 总 线 域 ， 进 而 连接 两 个 处 理 器 系统 ， 本 章 将 在 第 2. 5 节 中 详细 介绍 
PCI 非 透 明 桥 。 

使 用 PCI 桥 可 以 扩展 出 新 的 PCI 总 线 ， 在 这 条 PCI 总 线 上 还 可 以 继续 挂 接 多 个 PCI 设 


名 ”Nehalem 人 处理 器 也 称 为 Core 7 处 理 器 。 
昌 ”Menlow 平台 于 2008 年 3 月 发 布 ， 其 目标 应 用 为 MID (Mobile Internet Device) 设备 。Menlow 平台 基于 低 功 耗 处 理 
器 内 核 Atom。 
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备 。PCI 桥 跨 接 在 两 个 PCI 总 线 之 间 ， 其 中 距离 HOST 主 桥 较 近 的 PCI 总 线 被 称 为 该 桥 片 的 
上 游 总 线 (Primary Bus)， 距 离 HOST 主 桥 较 远 的 PCI 总 线 被 称 为 该 桥 片 的 下 游 总 线 (Sec- 
ondary Bus) 。 如 图 2-8 所 示 ，PCI 桥 1 的 上 游 总 线 为 PCI 总 线 x0， 而 PCI 桥 1 的 下 游 总 线 为 
PCI 总 线 x1。 这 两 条 总 线 间 的 数据 通信 需要 通过 PCI 桥 1。 


PCI 总 线 x 域 处 理 8 PCI 总 线 y 域 


HOST 主 桥 x 


Pa 
一 一 -PCI 疙 线 x0 。/ 
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图 2-8 使 用 PCI 桥 扩展 PCI 总 线 


通过 PCI 桥 连 接 的 PCI 总 线 属于 同一 个 PCI 总 线 域 ， 在 图 2-8 中 ，PCI 桥 1、2 和 3 连接 
的 PCI 总 线 都 属于 PCI 总 线 x 域 。 在 这 些 PCI 总 线 域 上 的 设备 可 以 通过 PCI 桥 直接 进行 数据 
交换 而 不 需要 进行 地 址 转换 ， 而 分 属 不 同 PCI 总 线 域 的 设备 间 的 通信 和 需要 进行 地 址 转换 ， 如 
与 PCI 非 透 明 桥 两 端 连 接 的 设备 之 间 的 通信 。 

如 图 2-8 所 示 ， 每 一 个 PCI 总 线 的 下 方 都 可 以 挂 接 一 个 到 多 个 PCI 桥 ， 每 一 个 PCI 桥 都 
可 以 推出 一 条 新 的 PCI 总 线 。 在 同一 条 PCI 总 线 上 的 设备 之 间 的 数据 交换 不 会 影响 其 他 PCI 
总 线 。 如 PCI 设备 21 与 PCI 设备 22 之 间 的 数据 通信 仪 占用 PCI 总 线 x2 的 带宽 ， 而 不 会 影 
响 PCI 总 线 x0 、xl 与 x3， 这 也 是 引入 PCI 桥 的 一 个 重要 原因 。 

由 图 2-8 还 可 以 发 现 PCI 总 线 可 以 通过 PCI 桥 组 成 一 个 胖 树 结构 ， 其 中 每 一 个 桥 片 都 是 
父 节点 ， 而 PCI Agent 设备 只 能 是 子 节点 。 当 PCI 桥 出 现 故障 时 ， 其 下 的 设备 不 能 将 数据 传 
递 给 上 游 总 线 ， 但 是 并 不 影响 PCI 桥 下 游 设 备 间 的 通信 。 当 PCI 桥 1 出 现 故 障 时 ，PCI 设备 
11、PCI 设备 21 和 PCI 设备 22 将 不 能 与 PCI 设备 01 和 存储 器 进行 通信 ， 但 是 PCI 设备 21 
和 PCI 设备 22 之 间 的 通信 可 以 正常 进行 。 

使 用 PCI 桥 可 以 扩展 一 条 新 的 PCI 总 线 ， 但 是 不 能 扩展 新 的 PCI 总 线 域 。 如 果 当 前 系统 
使 用 32 位 的 PCI 总 线 地 址 ， 那 么 这 个 系统 的 PCI 总 线 域 的 地 址 空间 为 4 GB 大 小 ， 在 这 个 总 
线 域 上 的 所 有 设备 将 共享 这 个 4GB 大 小 的 空间 。 如 在 PCI 总 线 x 域 上 的 PCI 桥 1、PCI 设备 
01、PCI 设备 11 、PCI 桥 2、PCI 设备 21 和 PCI 设备 22 等 都 将 共享 一 个 4 CB 大 小 的 空间 。 
再 次 强调 这 个 4 GB 空间 是 PCI 总 线 x 域 的 “PCI 总 线 地 址 空间 ”， 和 存储 器 域 地 址 空间 和 
PCI 总 线 y 域 没有 直接 联系 。 

处 理 器 系统 可 以 通过 HOST 主 桥 扩展 出 新 的 PCI 总 线 域 ， 如 MPC8548 处理 右 的 HOST 主 
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桥 x 和 y 可 以 扩展 出 两 个 PCI 总线 域 x 和 ys。 这 两 个 PCI 总 线 域 x 和 y 之 间 的 PCI 空间 在 正常 
情况 下 不 能 直接 进行 数据 交换 ， 但 是 PowerPC 处 理 器 可 以 通过 设置 PIWARn 寄存 器 的 TCI 字 
段 使 得 不 同 PCI 总 线 域 的 设备 直接 通信 ， 详 见 第 2.2.3 节 。 

许多 处 理 器 系统 使 用 的 PCI 设备 较 少 ， 因 而 并 不 需要 使 用 PCI 桥 。 因 此 在 这 些 处 理 器 系 
统 中 ，PCI 设备 都 是 直接 挂 接 在 HOST 主 桥 上 ， 而 不 需要 使 用 PCI 桥 扩 展 新 的 PCI 总 线 。 即 
便 如 此 读者 也 需要 深入 理解 PCI 桥 的 知识 。 

PCI 桥 对 于 理解 PCI 和 PCIe 总 线 都 非常 重要 。 在 PCle 总 线 中 ,虽然 在 物理 结构 上 并 不 
含有 PCI 桥 ,但 是 与 PCI 桥 相 关 的 知识 在 PCIe 总 线 中 无 处 不 在 ， 比 如 在 PCIe 总 线 的 Switch 
中 ， 每 一 个 端口 都 与 一 个 虚拟 PCI 桥 对 应 ，Switch 使 用 这 个 虚拟 PCI 桥 管理 其 下 PCI 总 线 子 
树 的 地 址 空间 。 


2. 3.2 PCI Agent 设备 的 配置 空间 


在 一 个 具体 的 处 理 器 应 用 中 ，PCI 设备 通常 将 PCI 配置 信息 存放 在 EPROM 中 。PCI 设 
备 进 行 上 电 初始 化 时 ， 将 已 PROM 中 的 信息 读 到 PCI 设备 的 配置 空间 中 作为 初始 值 。 这 个 
过 程 由 硬件 逻辑 完成 ， 绝 大 多 数 PCI 设备 使 用 这 种 方式 初始 化 其 配置 空间 。 

读者 可 能 会 对 这 种 机 制 产 生 一 个 疑问 ， 如 果 系 统 软件 在 PCI 设备 将 已 PROM 中 的 信息 
读 到 配置 空间 之 前 ， 就 开始 操作 配置 空间 ， 会 不 会 带 来 问题 ? 因为 此 时 PCI 设备 的 初始 值 并 
不 “正确 ”， 仅 仅 是 PCI 设备 使 用 的 复位 值 。 

读者 的 这 种 担心 是 多 余 的 ， 因 为 PCI 设备 在 配置 寄存 器 没有 初始 化 完毕 之 前 ， 即 
EPROM 中 的 内 容 没 有 导入 PCI 设备 的 配置 空间 之 前 ， 可 以 使 用 PCI 总 线 规定 的 “Retry” 
周期 使 HOST 主 桥 在 合适 的 时 机 重新 发 起 配置 读 写 请 求 。 

在 x86 处 理 器 中 ， 系 统 软 件 使 用 CONFIG_ADDR 和 CONFIG_DATA 寄存 器 ， 读 取 PCI 设 
备 配 置 空间 的 这 些 初始 化 信息 ， 然 后 根据 处 理 器 系统 的 实际 情况 使 用 DFS 算法 ， 初 始 化 处 
理 器 系统 中 所 有 PCI 设备 的 配置 空间 。 

在 PCI Agent 设备 的 配置 空间 中 包含 了 许多 寄存 器 ， 这 些 寄 存 器 决定 了 该 设备 在 PCI 总 
线 中 的 使 用 方法 ， 本 节 不 会 全 部 介绍 这 些 寄 存 器 ， 因 为 系统 软件 只 对 部 分 配置 寄存 器 感 兴 
趣 。PCI Agent 设备 使 用 的 配置 空间 如 图 2-9 所 示 。 

在 PCI Agent 设备 配置 空间 中 包含 的 寄存 器 如 下 所 示 。 

(1) Device ID 和 Vendor ID 寄存 器 

这 两 个 寄存 器 的 值 由 PCISIG 分 配 ， 只 读 。 其 中 Vendor ID 代表 PCI 设备 的 生产 厂商 ， 而 
Device ID 代表 这 个 厂商 所 生产 的 具体 设备 。 如 Intel 公司 的 基于 82571EB 芯片 的 系列 网 卡 ， 
其 Vendor ID 为 0x80862 ， 而 Device ID 为 0x105E2 。 

其 中 0x8086 代表 Intel ，0x105E 代表 82571EB 网 卡 芯片 。Intel 将 0x10xx 作为 LAN 设备 
的 Device ID。Intel 在 PCISIG 上 注册 了 多 如 牛 毛 的 Device ID ， 这 些 Device ID 放 在 一 起 ， 几 
页 纸 也 列 不 完 。 不 过 16 位 的 Device ID 即便 对 于 Intel 这 样 大 的 公司 ， 也 基本 没有 用 完 的 可 
能 。 当 Vendor ID 寄存 器 为 0xFFFF 时 ， 表 示 为 无 效 Vendor ID。 


”PCI SIG 分 配给 Intel 的 Vendor ID 号 是 0x8086，8086 处 理 器 也 是 Intel 设计 的 第 一 个 PC 处理 器 。 
蝗 这 仅 是 Intel 为 82571 的 Copper 口 分 配 的 Vendor ID 。 
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图 2-9 PCI Agent 设备 的 配置 空间 


(2) Revision ID 和 Class Code 寄存 器 

这 两 个 寄存 器 只 读 。 其 中 Revision ID 寄存 器 记载 PCI 设备 的 版 本 号 。 该 寄存 器 可 以 被 
认为 是 Device ID 寄存 兢 的 扩展 。 

而 Class Code 寄存 器 记载 PCI 设备 的 分 类 ,该 寄存 器 由 三 个 字段 组 成 ,分 别 是 Base 
Class Code 、Sub Class Code 和 Interface 。 其 中 Base Class Code 将 PCI 设备 分 类 为 显卡 、 网 卡 、 
PCI 桥 等 设备 ;Sub Class Code 对 这 些 设 备 进一步 细 分 ; 而 Interface 定义 编程 接口 。Class 
Code 寄存 器 可 供 系 统 软件 识别 当前 PCI 设备 的 分 类 。 

除 此 之 外 硬件 逻辑 设计 也 需要 使 用 该 寄存 器 识别 不 同 的 设备 。 当 Base Class Code 寄存 器 
为 0x06 ，Sub Class Code 寄存 器 为 0x04 时 ， 如 果 Interface 寄存 器 为 0x00 ， 表 示 当 前 PCI 设备 
为 一 个 标准 的 PCI 桥 ; 如 果 Interface 寄存 髓 为 0x01， 表 示 当 前 PCI 设备 为 一 个 使 用 “ 负 向 译 
码 ” 的 PCI 桥 。 

硬件 逻辑 需要 根据 这 些 寄 存 器 判断 当前 PCI 桥 的 使 用 方式 ， 许 多 PCI 桥 既 可 以 支持 “ 正 
向 ” 译 码 ， 也 可 以 文 持 “ 负 向 ” 译 码 ， 系 统 软件 必须 合理 设置 Class Code 寄存 器 。 有 关 正 
向 译 码 与 负 向 译 码 的 详细 说 明 见 第 3. 2.1 节 。 

(3) Header Type 寄存 需 

该 寄存 器 只 读 ， 由 8 位 组 成 。 

。 第 7 位 为 1 表示 当前 PCI 设 备 是 多 功能 设备 ， 为 0 表示 为 单 功能 设备 。 

e 第 6~0 位 表示 当前 配置 空间 的 类 型 ， 为 0 表示 该 设备 使 用 PCI Agent 设备 的 配置 空 

间 ， 普 通 PCI 设备 都 使 用 这 种 配置 头 ; 为 1 表示 使 用 PCI 桥 的 配置 空间 ，PCI 桥 使 用 
这 种 配置 头 ; 为 2 表示 使 用 Cardbus 桥 片 的 配置 空间 ，Card Bus 桥 片 使 用 这 种 配置 头 ， 
本 书 对 这 类 配置 头 不 作 详 解 。 

系统 软件 需要 使 用 该 寄存 器 区 分 不 同类 型 的 PCI 配置 空间 ， 该 寄存 器 的 初始 化 必须 与 

PCI 设备 的 实际 情况 对 应 ， 而 且 必 须 为 一 个 合法 值 。 
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(4) Cache Line Size 寄存 器 

该 寄存 器 记录 HOST 处 理 右 使 用 的 Cache 行 长 度 。 在 PCI 总 线 中 和 Cache 相关 的 总 线 事 
务 ， 如 存储 需 写 并 无 效 和 Cache 多 行 读 等 总 线 事务 需要 使 用 这 个 寄存 咒 。 值 得 注意 的 是 ， 该 
寄存 器 由 系统 软件 设置 ， 但 是 在 PCI 设备 的 运行 过 程 中 ， 只 有 其 硬件 逻辑 才 会 使 用 该 寄存 
器 ， 比 如 PCI 设备 的 硬件 逻辑 需要 得 知 处 理 器 系统 Cache 行 的 大 小 ， 才 能 进行 存储 器 写 并 无 
效 总 线 事务 ， 单 行 读 和 多 行 读 总 线 事务 。 

如 果 PCI 设备 不 支持 与 Cache 相关 的 总 线 事务 ， 系 统 软件 可 以 不 设置 该 寄存 器 ， 此 时 该 
寄存 器 为 初始 值 0x00。 对 于 PCIe 设备 ， 该 寄存 器 的 值 无 意义 ， 因 为 PCle 设备 在 进行 数据 传 
送 时 ， 在 其 报 文 中 含有 一 次 数据 传送 的 大 小 ，PCIe 总 线 控制 器 可 以 使 用 这 个 “大 小 ” ， 判 断 
数据 区 域 与 Cache 行 的 对 应 关系 。 

(5) Subsystem ID 和 Subsystem Vendor ID 寄存 带 

这 两 个 寄存 带 和 Device ID 及 Vendor ID 类 似 ， 也 是 记录 PCI 设备 的 生产 厂商 和 设备 名 
称 。 但 是 这 两 个 寄存 器 和 Device ID 及 Vendor ID 寄存 器 略 有 不 同 。 下 面 以 一 个 实例 说 明 
Subsystem ID 和 Subsystem Vendor ID 的 用 途 。 

Xilinx 公司 在 FGPA 中 集成 了 一 个 PCIe 总 线 接口 的 卫 核 ， 即 LogiCORE。 用 户 可 以 使 用 
LogiCORE 设计 各 种 各 样 基于 PCIe 总 线 的 设备 ， 但 是 这 些 设备 的 Device ID 都 是 0x10EE， 而 
Vendor ID 为 0x00072 。 

因此 仅 使 用 Device ID 和 Vendor ID 寄存 器 无 法 区 分 这 些 设备 。 此 时 必须 使 用 Subsystem 
ID 和 Subsystem Vendor ID 。 如 果 Intel 也 使 用 LogiCORE 设计 一 款 网 卡 适 配 圳 ,那么 这 个 基于 
LogiCORE 的 网 卡 适 配 需 的 Subsystem Vendor ID 寄存 克 为 0x8086 ， 而 Subsystem ID 寄存 需 将 
是 0xl0xx。 

(6) Expansion ROM base address 寄存 髓 

有 些 PCI 设备 在 处 理 器 还 没有 运行 操作 系统 之 前 ， 就 需要 完成 基本 的 初始 化 设置 ， 比 如 
显卡 、 键 盘 和 硬盘 等 设备 。 为 了 实现 这 个 “预先 执行 ”功能 ，PCI 设备 需要 提供 一 段 ROM 
程序 ， 而 处 理 器 在 初始 化 过 程 中 将 运行 这 段 ROM 程序 ， 初 始 化 这 些 PCI 设备 。Expansion 
ROM base address 记载 这 段 ROM 程序 的 基地 址 。 

(7) Capabilities Pointer 寄存 髓 

在 PCI 设备 中 ,该 寄存 器 是 可 选 的 , 但 是 在 PCI-X 和 PCIe 设备 中 必须 支持 这 个 寄存 器 ， 
Capabilities Pointer 寄存 器 存放 Capabilities 寄存 器 组 的 基地 址 ，PCI 设备 使 用 Capabilities 寄存 
器 组 存放 一 些 与 PCI 设备 相关 的 扩展 配置 信息 。 该 组 寄存 带 的 详细 说 明 见 第 4.3 节 。 

(8) Interrupt Line 寄存 髓 

这 个 寄存 器 是 系统 软件 对 PCI 设备 进行 配置 时 写 和 的， 该 寄存 器 记录 当前 PCI 设备 使 用 
的 中 断 向 量 号 ,设备 驱动 程序 可 以 通过 这 个 寄存 器 ， 判 断 当 前 PCI 设备 使 用 处 理 器 系统 中 的 
哪个 中 断 向 量 号 ， 并 将 驱动 程序 的 中 断 服务 例 程 注册 到 操作 系统 中 ” 。 

该 寄存 器 由 系统 软件 初始 化 ， 其 保存 的 值 与 8259A 中 断 控 制 器 相关 ， 该 寄存 器 的 值 也 
是 由 PCI 设备 与 8259A 中 断 控制 器 的 连接 关系 决定 的 。 如 果 在 一 个 处 理 器 系统 中 ， 没 有 使 


”Xilinx 使 用 的 Device ID 号 为 0xl0FE， 而 LogiCORE 的 Vendor ID 号 为 0x0007 。 
外 Linux 系统 使 用 request_irq 函数 注册 一 个 设备 的 中 断 服 务 例 程 。 
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用 8259A 中 断 控 制 器 管理 PCI 设备 的 中 断 ， 则 该 寄存 器 中 的 数据 并 没有 意义 。 

在 多 数 PowerPC 处 理 器 系统 中 ， 并 不 使 用 8259A 中 断 控制 器 管理 PCI 设备 的 中 断 请 求 ， 
因此 该 寄存 器 没有 意义 。 即 使 在 x86 处 理 器 系统 中 ， 如 果 使 用 IO APIC 中 断 控 制 器 ， 该 寄 
存 器 保存 的 内 容 仍 然 无 效 。 目 前 在 绝 大 多 数 处 理 器 系统 中 ， 并 没有 使 用 该 寄存 右 存 放 PCI 设 
备 使 用 的 中 断 向 量 号 。 

(9) Interrupt Pin 寄存 器 

这 个 寄存 器 保存 PCI 设备 使 用 的 中 断 引 脚 。PCI 总 线 提供 了 四 个 中 断 引 脚 ， INTA#、INTB#、 
INTC# 和 INTD#。Jnterrupt Pin 寄存 器 为 1 时 表示 使 用 INTA#5 引 脚 向 中 断 控制 器 提交 中 断 请 
求 ， 为 2 表示 使 用 INTB#， 为 3 表示 使 用 INTC#， 为 4 表示 使 用 INTD#。 

如 果 PCI 设备 只 有 一 个 子 设 备 时 ， 该 设备 只 能 使 用 INTA#; 如 果 有 多 个 子 设 备 时 ， 可 以 
使 用 INTB ~ D# 信 号 。 如 果 PCI 设备 不 使 用 这 些 中 断 引 脚 ， 向 处 理 需 提交 中 断 请 求 时 ， 该 寄 
存 器 的 值 必须 为 0。 值 得 注意 的 是 ， 虽 然 在 PCIe 设备 中 并 不 含有 INTA ~ D# 信 和 号， 但 是 依然 
可 以 使 用 该 寄存 器 ， 因 为 PCIe 设备 可 以 使 用 INTx 中 断 消息 ， 模 拟 PCI 设备 的 INTA ~ D# 信 
号 ， 详 见 第 6. 3.4 市 。 

(10) Base Address Register 0 ~5 寄存 央 

该 组 寄存 器 简称 为 BAR 寄存 器 ，BAR 寄存 器 保存 PCI 设备 使 用 的 地 址 空间 的 基地 址 ， 
该 基地 址 保存 的 是 该 设备 在 PCI 总 线 域 中 的 地 址 。 其 中 每 一 个 设备 最 多 可 以 有 6 个 基 址 空 
间 ， 但 多 数 设 备 不 会 使 用 这 么 多 组 地 址 空间 。 

在 PCI 设备 复位 之 后 ， 该 寄存 器 将 存放 PCI 设备 需要 使 用 的 基 址 空间 大 小 ， 这 段 空 间 是 
IO 空间 还 是 存储 器 空间 ? ， 如 果 是 存储 器 空间 该 空间 是 否 可 预 取 ， 有 关 PCI 总 线 预 读 机 制 
的 详细 说 明 见 第 3.4.5 市 。 

系统 软件 对 PCI 总 线 进 行 配置 时 ， 首 先 获 得 BAR 寄存 器 中 的 初始 化 信息 ， 之 后 根据 处 
理 器 系统 的 配置 ， 将 合理 的 基地 址 写 信 相 应 的 BAR 寄存 器 中 。 系 统 软件 还 可 以 使 用 该 寄存 
器 ， 获 得 PCI 设备 使 用 的 BAR 空间 的 长 度 ， 其 方法 是 向 BAR 寄存 器 写 人 0xFFFF-FFFF， 之 
后 再 读 取 该 寄存 器 。Linux 系统 使 用 _pci_read_base 因数 获得 BAR 寄存 需 的 长 度 ， 其 步骤 详 
见 第 14.3.2 节 。 

处 理 需 访问 PCI 设备 的 BAR 空间 时 ， 需 要 使 用 BAR 寄存 器 提供 的 基地 址 。 值 得 注意 的 
是 ， 处 理 器 使 用 存储 器 域 的 地 址 ， 而 BAR 寄存 器 存放 PCI 总 线 域 的 地 址 。 因 此 处 理 器 系统 
并 不 能 直接 使 用 “BAR 寄存 器 + 偏 移 ” 的 方式 访问 PCI 设备 的 寄存 器 空间 ， 而 需要 将 PCI 
总 线 域 的 地 址 转换 为 存储 器 域 的 地 址 。 在 Linux 系统 中 ， 一 个 处 理 器 系统 使 用 BAR 空间 的 
正确 方式 如 源 代码 2-2 所 示 。 

源 代码 2-2 ”Linux 系统 使 用 BAR 空间 的 正确 方法 


pciaddr = pci_resource_start( pdev,1); 


让 (! pciaddr) | 
re = —EIO; 
dev_err( &pdev - > dev, no MMIO resource\n ) ; 


© 一 般 来 说 PCI 设备 使 用 EEPROM 保存 BAR 寄存 器 的 初始 值 。 
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goto err_out_res ; 


| 
regs = ioremap(pciaddr,CP_RECS_SIZE ) ; 


在 Linux 系统 中 ， 使 用 pci_dev 一 resource[ bar]. start 参数 保存 BAR 寄存 器 在 存储 器 域 的 
地 址 。 在 编写 Linux 设备 驱动 程序 时 ， 必 须 使 用 pci_resource_start 困 数 获得 BAR 空间 对 应 的 
存储 央 域 的 物理 地 址 ， 而 不 能 使 用 从 BAR 寄存 咒 中 读 出 的 地 址 。 

当 驱 动 程序 获得 BAR 空间 在 存储 器 域 的 物理 地 址 后 ， 再 使 用 ioremap 函数 将 这 个 物理 地 
址 转换 为 虚拟 地 址 。Linux 系统 直接 使 用 BAR 空间 的 方法 是 不 正确 的 ， 如 源 代 码 2-3 所 示 。 


源 代码 2-3 Linux 系统 使 用 BAR 空间 的 错误 方法 


ret = pci_read_config dword( pdev,1,&pciaddr); 


i (! pciaddr) | 
re= -EIO; 
dev_err( &pdev - > dev, no MMIO resource\n ) ; 


goto err_out_res; 


| 
regs = ioremap(pciaddr,BAR_SIZE ) ; 


在 Linux 系统 中 ， 使 用 pci_read_config_dword 函数 获得 的 是 PCI 总 线 域 的 物理 地 址 ， 在 
许多 处 理 器 系统 中 ， 如 Alpha 和 PowerPC 处 理 需 系统 ，PCI 总 线 域 的 物理 地 址 与 存储 器 域 的 
物理 地 址 并 不 相等 。 

如 果 x86 处 理 吉 系统 使 能 了 IOMMU 后 ， 这 两 个 地 址 也 并 不 一 定 相 等 ， 因 此 处 理 器 系统 
直接 使 用 这 个 PCI 总 线 域 的 物理 地 址 ， 并 不 能 确保 访问 PCI 设备 的 BAR 空间 的 正确 性 。 除 
此 之 外 在 Linux 系统 中 ，ioremap 函数 的 输入 参数 为 存储 器 域 的 物理 地 址 ， 而 不 能 使 用 PCI 总 
线 域 的 物理 地 址 。 

而 在 pci_dev 一 resource[ bar]. start 参数 中 保存 的 地 址 已 经 经 过 PCI 总 线 域 到 存储 器 域 的 
地 址 转换 ， 因 此 在 编写 Linux 系统 的 设备 驱动 程序 时 ， 需 要 使 用 pci_dev 一 resource[ bar ]. start 
参数 中 的 物理 地 址 ， 再 用 ioremap 函数 将 物理 地 址 转换 为 “存储 器 域 ” 的 虚拟 地 址 。 

(11) Command 寄存 器 

该 寄存 器 为 PCI 设备 的 命令 寄存 器 ， 在 初始 化 时 ， 其 值 为 0， 此 时 这 个 PCI 设备 除了 能 
够 接收 配置 请 求 总 线 事 务 之 外 ， 不 能 接收 任何 存储 器 或 者 I/O 请 求 。 系 统 软件 需要 合理 设置 
该 寄存 器 之 后 ， 才 能 访问 该 设备 的 存储 器 或 者 LO 空间 。 在 Linux 系统 中 ,设备 驱动 程序 调 
用 pci_enable_device 函数 了， 使 能 该 寄存 器 的 IO 和 Memory Space 位 之 后 ， 才 能 访问 该 设备 
的 存储 器 或 者 10 地 址 空间 。Command 寄存 器 的 各 位 的 含义 如 表 2-4 所 示 。 


© pci_enable_device 函数 的 详细 说 明 第 12. 3.2 节 。 
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表 2-4 Command 寄存 器 


位 描述 
6 IO Space 位 ， 该 位 表示 PCI 设备 是 否 响应 WO 请 求 ， 为 1 时 响应 ,为 0 时 不 响应 。 如 果 PCI 设备 支持 
LI0 地 址 空间 ， 系 统 软件 会 将 该 位 置 1。 复 位 值 为 0 
1 Memory Space 位 ， 该 位 表示 PCI 设备 是 否 响应 存储 器 请 求 ， 为 1 时 响应 ， 为 0 时 不 响应 。 如 果 PCI 设备 
支持 存储 器 地 址 空间 ， 系 统 软件 会 将 该 位 置 1。 复 位 值 为 0 
Bus Master 位 。 该 位 表示 PCI 设备 是 否 可 以 作为 主 设备 ,为 1 时 PCI 设备 可 以 作为 主 设 备 ， 为 0 时 不 
能 。 复 位 值 为 0 
Special Cycle 位 ， 该 位 表示 PCI 设备 是 否 响 应 Special 总 线 事务 ， 为 1 时 响应 ， 为 0 时 不 响应 。PCI 设备 
3 可 以 使 用 Special 总 线 事 务 ， 将 一 些 信息 广播 发 送 到 多 个 目标 设备 ，Specail 总 线 事 务 不 能 穿越 PCI 桥 。 如 
果 一 个 PCI 设备 需要 将 Special 总 线 事务 发 送 到 PCI 桥 之 下 的 总 线 时 ， 必 须 使 用 Type 01h 配置 周期 。PCI 
桥 可 以 将 Type 01h 配置 周期 转换 为 Special 周期 。 该 位 的 复位 值 为 0 
4 Memory Write and Invalidate 位 ， 该 位 表示 PCI 设备 是 否 支持 Memory Write and Invalidate 总 线 事 务 ， 为 1 
时 支持 ， 为 0 时 不 支持 。 许 多 低 端 的 PCI 设备 不 支持 这 种 总 线 事 务 。 该 位 对 PCle 设备 无 意义 
VGA Palette Snoop 位 。 该 位 为 1 时 支持 Palette Snoop 功能 ， 为 0 时 不 支持 
Parity Error Response 位 ， 复位 值 为 0。 该 位 为 1， 而 且 PCI 设备 在 传送 过 程 中 出 现 奇 偶 校 验 错误 时 ，PCI 
6 设备 将 PERR# 信 号 设置 为 1; 该 位 为 0 时 ， 即 便 出 现 奇偶 检验 错误 ，PCI 设备 也 仅 会 将 Status 寄存 器 的 
“Detected Parity Error” 位 置 1 
SERR# Enable 位 ， 复 位 值 为 0。 该 位 为 1， 而 且 PCI 设备 出 现 错误 时 ， 将 使 用 SERR# 信 号 ， 将 这 个 错误 
信息 发 送 给 HOST 主 桥 ， 为 0 时 ， 不 能 使 用 SERR# 信 号 
Fast Back-to-Back 位 。 该 位 为 1 时 ，PCI 设备 使 用 Fast Back-to-Back (快速 背靠背 ) 总 线 周期 ， 这 种 周 
9 是 一 种 提高 传送 效率 的 方法 。 但 并 不 是 所 有 的 PCI 设备 都 支持 Fast Back-to-Back 传送 周期 。 该 位 的 复位 值 
为 0 
Interrupt Disable 位 ， 复 位 值 为 0。 该 位 为 1 时 ，PCI 设备 不 能 通过 INTx 信号 向 HOST 主 桥 提交 中 断 请 
10 求 ， 为 0 时 可 以 使 用 INTx 信和 号 提交 中 断 请 求 。 当 PCI 设备 使 用 MSI 中 断 方式 提交 中 断 请 求 时 ， 该 位 将 被 


置 为 1 


(12) Status 寄存 絮 
该 寄存 器 的 绝 大 多 数位 都 是 只 读 位 ， 保 存 PCI 设备 的 状态 ， 其 含义 如 表 2-5 所 示 。 


表 2-5 Status 寄存 器 


位 描述 
Interrupt Status 位 ， 该 位 只 读 。 该 位 为 1 且 Command 寄存 器 的 Jnterrupt Disable 位 为 0 时 ， 表 示 PCI 设备 
3 已 经 使 用 INTx 信号 向 处 理 器 提交 了 中 断 请 求 。 在 多 数 PCI 设备 中 的 BAR 空间 ， 存 在 自 定义 的 中 断 状 态 寄 
存 器 ， 因 此 设备 驱动 程序 很 少 使 用 该 位 判断 PCI 设备 是 否 提 交 了 中 断 请 求 
4 Capabilities List 位 ， 该 位 只 读 。 该 位 为 1 时 Capability Pointer 寄存 器 中 的 值 有 效 。 本 书 在 第 4. 3 节 详 细 
介绍 PCI 设备 的 Capability Pointer 寄存 器 
5 66MHz Capability 位 ， 该 位 只 读 。 为 1 时 表示 此 设备 支持 66 MHz 的 PCI 总 线 
3 Fast Back-to-Back Capable 位 。 该 位 只 读 ， 该 位 为 1 表示 此 设备 支持 快速 背靠背 总 线 周期 
Master Data Parity Error 位 。PCI 总 线 的 PERR# 信 号 有 效 时 将 置 该 位 为 1;， 当 PCI 总 线 出 现 数据 传送 错误 
时 置 此 位 为 1; 当 Command 寄存 器 的 Parity Error Response 位 为 1 时 ， 此 位 为 1 
DEVSEL timing 字段 。 该 字段 为 0b00 时 表示 PCI 设备 为 快速 设备 ， 为 0b01 时 表示 PCI 设备 为 中 速 设备 ; 
为 0b10 时 表示 PCI 设备 为 慢 速 设备 。 快 速 设备 要 求 PCI 总 线 主 设备 置 FRAME# 信 号 有 效 的 一 个 时 钟 周期 
9~10 ”| 后, 置 DEVSEL# 信 号 有 效 ; 中 速 设备 要 求 PCI 总 线 主 设备 置 FRAME# 信 号 有 效 的 两 个 时 钟 周 期 后 ， 置 


DEVSEL# 信 号 有 效 ; 慢 速 设备 要 求 PCI 总 线 主 设备 置 FRAME# 信 号 有 效 的 三 个 时 钟 周期 后 ， 置 DEVSEL# 
信号 有 效 
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( 续 ) 
位 描 ” 述 
在 一 条 PCI 总 线 上 ， 如 果 快 速 设备 、 中 速 设备 和 慢 速 设备 都 没有 使 用 DEVSEL# 信 号 响应 当前 总 线 事务 
时 ， 这 条 总 线 上 的 负 向 译 码 设备 ， 将 被 动 地 接收 这 个 总 线 事务 。 如 果 在 这 条 总 线 上 没有 负 向 译 码 设备 ， 
9 ~10 主 设备 在 FRAME# 信 号 有 效 后 的 第 4 个 时 钟 周期 ， 使 用 主 设备 天 折 时 序 ， 结 束 当前 总 线 事务 。 有 关 负 向 
译 码 设备 的 详细 说 明 见 第 3.2.1 节 。 
值得 注意 的 是 ， 在 PCLX 总 线 中 ， 该 字段 的 含义 与 PCI 总 线 有 所 不 同 


11 Signaled Target Abort 位 。 该 位 由 PCI 目标 设备 设置 ， 当 目标 设备 使 用 目标 设备 天 折 (Target Abort) 时 
序 ， 结 束 当前 总 线 周期 时 ，PCI 设备 将 置 该 位 为 1 
12 Received Target Abort 位 。 该 位 由 PCI 主 设备 设置 ， 当 发 生 目标 设备 天 折 时 序 时 ， 该 位 被 置 为 1 
13 Received Master Abort 位 。 该 位 由 PCI 主 设备 设置 ， 当 发 生 主 设备 天 折 时 序 ， 该 位 被 置 为 1。 当 以 上 几 个 
Abort 位 有 效 时 ， 表 示 PCI 总 线 的 数据 传送 通路 出 现 了 较为 严重 的 问题 
14 Signaled System Error 位 。 当 设备 置 SERR# 信 号 有 效 时 ， 该 位 被 置 1 
15 Detected Parity Error 位 。 当 设 备 发 现 奇偶 校 验 错时 ， 该 位 被 置 1 


(13) Latency Timer 寄存 器 

在 PCI 总 线 中 ， 多 个 设备 共享 同一 条 总 线 带宽 。 该 寄存 器 用 来 控制 PCI 设备 占用 PCI 总 
线 的 时 间 ， 当 PCI 设备 获得 总 线 使 用 权 ， 并 使 能 Frame# 信 号 后 ，Latency Timer 寄存 器 将 递 
减 ， 当 该 寄存 器 归 堆 后， 该 设备 将 使 用 超时 机 制 停止 ?对 当前 总 线 的 使 用 。 

如 果 当 前 总 线 事务 为 Memeory Write and Invalidate 时 ， 需 要 保证 对 一 个 完整 Cache 行 的 
操作 结束 后 才能 停止 当前 总 线 事务 。 对 于 多 数 PCI 设备 而 言 ， 该 寄存 器 的 值 为 32 或 者 64， 
以 保证 一 次 突 发 传送 的 基本 单位 为 一 个 Cache 行 。 

PpCIe 设备 不 需要 使 用 该 寄存 器 ， 该 寄存 器 的 值 必须 为 0。 因为 PCTe 总 线 的 仲裁 方法 与 
PCI 总 线 不 同 ， 使 用 的 连接 方法 也 与 PCI 总 线 不 同 。 


2.3.3 PCI 桥 的 配置 空间 


PCI 桥 使 用 的 配置 空间 的 寄存 器 如 图 2-10 所 示 。PCI 桥 作 为 一 个 PCI 设备 ， 使 用 的 许多 
配置 寄存 器 与 PCI Agent 的 寄存 需 是 类 似 的 ， 如 Device ID 、Vendor ID 、Status 、Command 、 
Interrupt Pin 、Interrupt Line 寄存 器 等 ， 本 节 不 再 重复 介绍 这 些 寄 存 器 。 下 面 将 重点 介绍 在 
PCI 桥 中 与 PCI Agent 的 配置 空间 不 相同 的 寄存 器 。 

与 PCI Agent 设备 不 同 ， 在 PCI 桥 中 只 含有 两 组 BAR 寄存 器 ， 即 Base Address Register 0 
~1 寄存 髓 。 这 两 组 寄存 器 与 PCI Agent 设备 配置 空间 的 对 应 寄存 器 的 含义 一 致 。 但 是 在 PCI 
桥 中 ， 这 两 组 寄存 器 是 可 选 的 。 如 果 在 PCI 桥 中 不 存在 私有 寄存 器 ， 那么 可 以 不 使 用 这 两 组 
寄存 器 设置 BAR 空间 。 

在 大 多 数 PCI 桥 中 都 不 存在 私有 寄存 器 ， 操 作 系 统 也 不 需要 为 PCI 桥 提供 专门 的 驱动 程 
序 ， 这 也 是 这 类 桥 被 称 为 透明 桥 的 原因 。 如 果 在 PCI 桥 中 不 存在 私有 空间 时 ，PCI 桥 将 这 两 
个 BAR 寄存 器 初始 化 为 0。 在 PCI 桥 的 配置 空间 中 使 用 两 个 BAR 寄存 器 的 原因 是 这 两 个 32 
位 的 寄存 器 可 以 组 成 一 个 64 位 地 址 空间 。 

在 PCI 桥 的 配置 空间 中 ， 有 许多 寄存 器 是 PCI 桥 所 特有 的 。PCI 桥 除 了 作为 PCI 设备 之 


”此 时 GNT# 信 号 为 无 效 。 为 提高 仲裁 效率 ，PCI 设备 在 进行 数据 传送 时 ，GNT# 信 号 可 能 已 经 无 效 。 
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外 ， 还 需要 管理 其 下 连接 的 PCI 总 线 子 树 使 用 的 各 类 资源 ， 即 Secondary Bus 所 连接 PCI 总 
线 子 树 使 用 的 资源 。 这 些 资 源 包括 存储 器 、1/O0 地 址 空间 和 总 线 号 。 


31 24 23 16 15 8 7 0 
Device ID Vendor ID 0x00 
Class Code Revision ID 0x08 
BIST Header Type Primary Latency Timerl| ”Cache Line Size 0x0C 
Base Address Register0 0x10 


Base Address Registerl Ox14 


Secondary Latency Subordinate Secondary Primary 0x18 
Timer Bus Number Bus Number Bus Number 


Secondary Status IO Limit LO Base 0x1C 


Memory Limit Memory Base 0x20 
Prefetchable Memory Limit 0x24 
Prefetchable Base Upper 32 Bits Ox28 
Prefetchable Limit Upper 32 Bits 0x2C 
IO Limit Upper 16 bits LO Base Upper 16 bits 0x30 
Reserved Capabilities Pointer | 0x34 

Expansion ROM Base Address 0x38V 
Bridge Control Interrupt Pin Interrupt Line 0x3C 


图 2-10 PCI 桥 的 配置 空间 


在 PCI 桥 中 ， 与 Secondary bus 相关 的 寄存 器 包括 两 大 类 。 一 类 寄存 器 管理 Secondary Bus 
之 下 PCI 子 树 的 总 线 号 ， 如 Secondary 和 Subordinate Bus Number 寄存 需 ; 另 一 类 寄存 需 管 理 
下 游 PCI 总 线 的 IO 和 存储 器 地 址 空间 ， 如 IO 和 Memory Limit、LILO 和 Memory Base 寄存 
器 。 在 PCI 桥 中 还 使 用 Primary Bus 寄存 器 保存 上 游 的 PCI 总 线 号 。 

其 中 存储 器 地 址 空间 还 分 为 可 预 读 空间 和 不 可 预 读 空间 ，Prefetchable Memory Limit 和 
Prefetchable Memory Base 寄存 谷 管理 可 预 读 空间 ， 而 Memory Limit、Memory Base 管理 不 可 预 
读 空 间 。 在 PCI 体系 结构 中 ,除了 ROM 地 址 空间 之 外 ，PCI 设备 使 用 的 地 址 空间 大 多 都 是 
不 可 预 读 的 。 

(1) Subordinate Bus Number 、Secondary Bus Number 和 Primary Bus Number 寄存 髓 

PCI 桥 可 以 管理 其 下 的 PCI 总 线 子 树 。 其 中 Subordinate Bus Number 寄存 器 存放 当前 PCI 
子 树 中 ， 编 号 最 大 的 PCI 总 线 号 。 而 Secondary Bus Number 寄存 需 存 放 当 前 PCI 桥 Secondary 
Bus 使 用 的 总 线 号 ， 这 个 PCI 总 线 号 也 是 该 PCI 桥 管理 的 PCI 子 树 中 编号 最 小 的 PCI 总 线 号 。 
因此 一 个 PCI 桥 能 够 管理 的 PCI 总 线 号 在 Secondary Bus Number ~ Subordinate Bus Number 之 
间 。 这 两 个 寄存 器 的 值 由 系统 软件 遍历 PCI 总 线 树 时 设置 。 

Primary Bus Number 寄存 需 存 放 该 PCI 桥 上 游 的 PCI 总 线 号 ,该 寄存 器 可 读 写 。Primary 
Bus Number 、Subordinate Bus Number 和 Secondary Bus Number 寄存 需 在 初始 化 时 必须 为 0， 
系统 软件 将 根据 这 几 个 寄存 器 是 否 为 0， 判 断 PCI 桥 是 否 被 配置 过 。 

不 同 的 操作 系统 使 用 不 同 的 Bootloader 引导 ， 有 的 Bootloader 可 能 会 对 PCI 总 线 树 进 行 
遍历 ， 此 时 操作 系统 不 必 重 新 遍历 PCI 总 线 树 。 在 x86 处 理 融 系统 中 ，BIOS 会 遍历 处 理 器 
系统 中 的 所 有 PCI 总 线 树 ， 操 作 系统 可 以 直接 使 用 BIOS 的 结果 ， 也 可 以 重新 这 历 PCI 总 线 
树 。 而 PowerPC 处 理 需 系统 中 的 Bootloader， 如 U - Boot 并 没有 完全 遍历 PCI 总 线 树 ， 此 时 
操作 系统 必须 重新 遍历 PCI 总 线 树 。 本 书 将 在 第 14 章 以 Linux 系统 为 例 说 明 PCI 总 线 树 的 遍 
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历 过 程 。 
(2) Secondary Status 寄存 髓 
该 寄存 絮 的 含义 与 PCI Agent 配置 空间 的 Status 寄存 器 的 含义 相近 ，PCI 桥 的 Secondary 
Status 寄存 器 记录 Secondary Bus 的 状态 ， 而 不 是 PCI 桥 作 为 PCI 设备 时 使 用 的 状态 。 在 PCI 
桥 配 置 空间 中 还 存在 一 个 Status 寄存 器 ， 该 寄存 器 保存 PCI 桥 作为 PCI 设备 时 的 状态 。 
(3) Secondary Latency Timer 寄存 髓 
该 寄存 器 的 含义 与 PCI Agent 配置 空间 的 Latency Timer 寄存 器 的 含义 相近 ，PCI 桥 的 
Secondary Latency Timer 寄存 器 管理 Secondary Bus 的 超时 机 制 ， 即 PCI 桥 发 向 下 游 的 总 线 事 
务 ; 在 PCI 桥 配 置 空间 中 还 存在 一 个 Latency Timer 寄存 器 ， 该 寄存 器 管理 PCI 桥 发 向上 游 的 
总 线 事务 。 
(4) LO Limit 和 1/O Base 寄存 右 
在 PCI 桥 管理 的 PCI 子 树 中 包含 许多 PCI 设备 ， 而 这 些 PCI 设备 可 能 会 使 用 IO 地 址 空 
间 。PCI 桥 使 用 这 两 个 寄存 器 ， 存放 PCI 子 树 中 所 有 设备 使 用 的 0 地 址 空间 集合 的 基地 址 
和 大 小 。 
(5) Memory Limit 和 Memory Base 寄存 器 
在 PCI 桥 管 理 的 PCI 子 树 中 有 许多 PCI 设备 ， 这 些 PCI 设备 可 能 会 使 用 存储 器 地 址 空 
间 。 这 两 个 寄存 器 存放 所 有 这 些 PCI 设备 使 用 的 存储 器 地 址 空间 集合 的 基地 址 和 大 小 ，PCI 
桥 规 定 这 个 空间 的 大 小 至 少 为 1MB。 
(6) Prefetchable Memory Limit 和 Prefetchable Memory Base 寄存 央 
在 PCI 桥 管理 的 PCI 子 树 中 有 许多 PCI 设备 ， 如 果 这 些 PCI 设备 支持 预 读 ， 则 需要 从 
PCI 桥 的 可 预 读 空间 中 获取 地 址 空间 。PCI 桥 的 这 两 个 寄存 器 存放 这 些 PCI 设备 使 用 的 可 预 
取 存 储 器 空间 的 基地 址 和 大 小 。 
如 果 PCI 桥 不 支持 预 读 ， 则 其 下 支持 预 读 的 PCI 设备 需要 从 Memory Base 寄存 器 为 基地 
址 的 存储 器 空间 中 获取 地 址 空间 。 如 果 PCI 桥 支 持 预 读 ， 其 下 的 PCI 设备 需要 根据 情况 ， 决 
定 使 用 可 预 读 空间 还 是 不 可 预 读 空间 。PCI 总 线 建议 PCI 设备 支持 预 读 ， 但 是 支持 预 读 的 
PCI 设备 并 不 多 见 。 
(7) I/O Base Upper 16 Bits and I/O Limit Upper 16 寄存 絮 
如 果 PCI 桥 仅 支 持 16 位 的 VO 端口 ， 这 组 寄存 天 只 读 ， 且 其 值 为 0。 如 果 PCI 桥 支 持 
32 位 VO 端口 ， 这 组 寄存 器 可 以 提供 IZO 端口 的 高 16 位 地 址 。 
(8) Bridge Control Register 
该 寄存 器 用 来 管理 PCI 桥 的 Secondary Bus， 其 主要 位 的 描述 如 下 。 
e Secondary Bus Reset 位 ， 第 6 位 ， 可 读 写 。 当 该 位 为 1 时 ,将 使 用 下 游 总 线 提供 的 
RST# 信 号 复位 与 PCI 桥 的 下 游 总 线 连接 的 PCI 设备 。 通 常情 况 下 与 PCI 桥 下 游 总 线 连 
接 的 PCI 设备 ， 其 复位 信号 需要 与 PCI 桥 提供 的 RST# 信 和 号 连接 ， 而 不 能 与 HOST 主 
桥 提 供 的 RST# 信 号 连接 。 
e Primary Discard Timer 位 ， 第 8 位 ， 可 读 写 。PCI 桥 支 持 Delayed 传送 方式 ， 当 PCI 桥 
的 Primary 总 线 上 的 主 设备 使 用 Delayed 方式 进行 数据 传递 时 ，PCI 桥 使 用 Retry 周期 
结束 Primary 总 线 的 Non-Posted 数据 请 求 ， 并 将 这 个 Non-Posted 数据 请 求 转换 为 De- 
layed 数据 请 求 ， 之 后 主 设备 需要 择 时 重 试 相同 的 Non-Posted 数据 请 求 。 当 该 位 为 
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时 ， 表 示 在 Primary Bus 上 的 主 设备 需要 在 2" 个 时 钟 周期 之 内 重 试 这 个 数据 请 求 ， 为 
0 时 ， 表 示 主 设备 需要 在 2" 个 时 钟 周 期 之 内 重 试 这 个 数据 请 求 ， 否 则 PCI 桥 将 丢弃 
Delayed 数据 请 求 。 

e Secondary Discard Timer 位 ， 第 9 位 ， 可 读 写 。 当 该 位 为 1 时 ， 表 示 在 Secondary Bus 
上 的 主 设备 需要 在 2" 个 时 钟 周期 之 内 重 试 这 个 数据 请 求 ， 为 0 时 ， 表示 主 设备 需要 
在 2" 个 时 钟 周期 之 内 重 试 这 个 数据 请 求 ， 如 果 主 设备 在 规定 的 时 间 内 没有 进行 重 试 
时 ，PCI 桥 将 丢弃 Delayed 数据 请 求 。 


2.4 PCI 总 线 的 配置 


PCI 总 线 定义 了 两 类 配置 请 求 ， 一 类 是 Type 00h 配置 请 求 ， 另 一 类 是 Type 01h 配置 请 
求 。PCI 总 线 使 用 这 些 配置 请 求 访问 PCI 总 线 树 上 的 设备 配置 空间 ， 包 括 PCI 桥 和 PCI Agent 
设备 的 配置 空间 。 

其 中 HOST 主 桥 或 者 PCI 桥 使 用 Type 00h 配置 请 求 ， 访 问 与 HOST 主 桥 或 者 PCI 桥 直接 
相连 的 PCI Agent 设备 或 者 PCI 桥 9;， 而 HOST 主 桥 或 者 PCI 桥 使 用 Type 01h 配置 请 求 ， 需 
要 至 少 穿越 一 个 PCI 桥 ， 访 问 没有 与 其 直接 相连 的 PCI Agent 设备 或 者 PCI 桥 。 如 图 2-8 所 
示 ，HOST 主 桥 可 以 使 用 Type 00h 配置 请 求 访 问 PCI 设备 01 ， 而 使 用 Type 01h 配置 请 求 通 
过 PCI 桥 1、2 或 者 3 转换 为 Type 00h 配置 请 求 之 后 ， 访 问 PCI 总 线 树 上 的 PCI 设备 11、21 、 
22、31 和 322 。 

当 x86 处 理 器 对 CONFIG_DATA 寄存 器 进行 读 写 操作 时 ，HOST 主 桥 将 决定 问 PCI 总 线 
发 送 Type 00h 配置 请 求 还 是 Type 01h 配置 请 求 。 在 PCI 总 线 事 务 的 地 址 周期 中 ， 这 两 种 配 
置 请 求 总 线 事务 的 不 同 反 映 在 PCI 总 线 的 AD [31:0] 信号 线 上 。 

值得 注意 的 是 ，PCIe 总 线 还 可 以 使 用 ECAM (Enhanced Configuration Access Mechanism ) 
机 制 访问 PCle 设备 的 扩展 配置 空间 ， 使 用 这 种 方式 可 以 访问 PCle 设备 256 B ~4 KB 之 间 的 
扩展 配置 空间 。 但 是 本 节 仅 介绍 如 何 使 用 CONFIG_ADDRESS 和 CONFIG_FATA 寄存 器 产生 
Type 00h 和 Type 01h 配置 请 求 。 有 关 ECAM 机 制 的 详细 说 明 见 第 5.3. 2 节 。 

处 理 器 首先 将 目标 PCI 设备 的 ID 号 保存 在 CONFIG_ADDRESS 寄存 需 中 ,之 后 HOST 主 
桥 根 据 该 寄存 器 的 Bus Number 字段 ， 决 定 是 产生 Type 00h 配置 请 求 ， 还 是 Type 01h 配置 请 
求 。 当 Bus Number 字段 为 0 时 ， 将 产生 Type 00h 配置 请 求 ， 因 为 与 HOST 主 桥 直接 相连 的 
总 线 号 为 0; 大 于 0 时， 将 产生 Type 01lh 配置 请 求 。 

2.4.1 Type 01h 和 Type 00h 配置 请 求 

本 节 首 先 介 绍 Type 01h 配置 请 求 ， 并 从 PCI 总 线 使 用 的 信号 线 的 角度 上 ， 讲 述 HOST 主 

桥 如 何 生成 Type 01 配置 请 求 。 在 PCI 总 线 中 ， 只 有 PCI 桥 能 够 接收 Type 01lh 配置 请 求 。 


Type 01h 配置 请 求 不 能 直接 发 向 最 终 的 PCI Agent 设备 ， 而 只 能 由 PCI 桥 将 其 转换 为 Type 
01h 继续 发 向 其 他 PCI 桥 ， 或 者 转换 为 Type 00h 配置 请 求 发 向 PCI Agent 设备 。PCI 桥 还 可 


© 此 时 PCI 桥 作为 一 个 PCI 设备， 接收 访问 其 配置 空间 的 读 写 请 求 。 
钙 最 终 Type 01h 配置 请 求 将 会 被 转换 为 Type 00h 配置 请 求 ， 然后 访问 PCI Agent 设备 。 


533 


以 将 Type 01h 配置 请 求 转 换 为 Special Cycle 总 线 事 务 (HOST 主 桥 也 可 以 实现 该 功能 ) ， 本 
节 对 这 种 情况 不 做 介绍 。 

在 地 址 周期 中 ，HOST 主 桥 使 用 配置 读 写 总 线 事务 ,将 CONFIG_ADDRESS 寄存 器 的 内 
容 复 制 到 PCI 总 线 的 AD [31:0] 信号 线 中 。CONFIG_ADDRESS 寄存 器 与 Type 01h 配置 请 


求 的 对 应 关系 如 图 2-11 所 示 。 
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图 2-11 CONFIG_ADDRESS 寄存 器 与 Type 01h 配置 请 求 的 对 应 关系 


从 图 2-11 中 可 以 发 现 ，CONFIG_ADDRESS 寄存 器 的 内 容 基 本 上 是 原封 不 动 地 复制 到 
PCI 总 线 的 AD [31: 0] 信号 线 上 的 5。 其 中 CONFIG_ADDRESS 的 Enable 位 不 被 复制 ， 而 
AD 总 线 的 第 0 位 必须 为 1， 表示 当前 配置 请 求 是 Type 01h。 

当 PCI 总 线 接收 到 Type 01 配置 请 求 时 ， 将 寻找 合适 的 PCI 桥接 收 这 个 配置 信息 。 如 
果 这 个 配置 请 求 是 直接 发 向 PCI 桥 下 的 PCI 设备 时 ，PCI 桥 将 接收 这 个 Type 01 配置 请 求 ， 
并 将 其 转换 为 Type 00h 配置 请 求 ; 否则 PCI 桥 将 当前 Type 01h 配置 请 求 原封 不 动 地 传递 给 
下 一 级 PCI 总 线 。 

如 果 HOST 主 桥 或 者 PCI 桥 发 起 的 是 Type 00h 配置 请 求 ，CONFIG_ADDRESS 寄存 器 与 
AD [31:0] 的 转换 如 图 2-12 所 示 。 
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图 2-12 ”CONFIG_ADDRESS 寄存 器 与 Type 00h 配置 请 求 的 对 应 关系 


PCI AD Bus 


此 时 处 理 需 对 CONFIG_DATA 寄存 器 进行 读 写 时 ， 处 理 需 将 CONFIG_ADDRESS 寄存 带 
中 的 Function Number 和 Register Number 字段 复制 到 PCI 的 AD 总 线 的 第 10 ~2 位 ; 将 AD 总 
线 的 第 1 ~0 位 赋值 为 0b00。PCI 总 线 在 配置 请 求 总 线 事务 的 地 址 周期 根据 AD [1:0] 判断 
当前 配置 请 求 是 Type 00h 还 是 Type 01h， 如 果 AD [1:0] 等 于 0b00 表示 是 Type 00h 配置 请 
求 ， 如果 AD [1:0] 等 于 0b01 表示 是 Type 01h 配置 请 求 。 

而 AD [31:11] 与 CONFIG_ADDRESS 的 Device Number 字段 有 关 ， 在 Type 00h 配置 请 


© Type 01h 配置 头 信息 存在 于 PCI 总 线 事 务 的 地 址 周期 中 。 
钙 PCI 桥 根 据 Subordinate Bus Number 和 Secondary Bus Number 寄存 器 ， 决 定 是 否 接收 当前 配置 请 求 。 
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求 的 地 址 周期 中 ，AD [31:11] 位 有 且 只 有 一 位 为 1， 其 中 AD [31:11] 的 每 一 位 选 通 一 个 
PCI 设备 的 配置 空间 。 如 第 1. 2. 2 节 所 述 ，PCI 设备 配置 空间 的 片 选 信号 是 IDSEL， 因 此 AD 
[31:11] 将 与 PCI 设备 的 IDSEL 信号 对 应 相连 。 

当 以 下 两 种 请 求 之 一 满足 时 ，HOST 主 桥 或 者 PCI 桥 将 生成 Type 00h 配置 头 ， 并 将 其 发 
送 到 指定 的 PCI 总 线 上 。 

(1) CONFIG_ADDRESS 寄存 器 的 Bus Number 字段 为 0 时 ,处理 器 访问 CONFIG_DATA 
寄存 器 时 ，HOST 主 桥 将 直接 向 PCI 总 线 0 发 出 Type 00h 配置 请 求 。 因 为 与 HOST 主 桥 直接 
相连 的 PCI 总 线 号 为 0， 此 时 表示 HOST 主 桥 需要 访问 与 其 直接 相连 的 PCI 设备 。 

(2) 当 PCI 桥 收 到 Type 01h 配置 头 时 ， 将 检查 Type 01 配置 头 的 Bus Number 字段 ， 如 果 
这 个 Bus Number 与 PCI 桥 的 Secondary Bus Number 相同 ， 则 将 这 个 Type 01 配置 头 转换 为 
Type 00h 配置 头 ， 并 发 送 到 该 PCI 桥 的 Secondary 总 线 上 。 


2.4.2 PCI 总 线 配 置 请 求 的 转换 原则 


当 CONFIG_ADDRESS 寄存 器 的 Enable 位 为 1， 系 统 软件 访问 CONFIG_DATA 寄存 器 时 ， 
HOST 主 桥 可 以 产生 两 类 PCI 总 线 配置 读 写 总 线 事务 ， 分 别 为 Type 00h 和 Type 01h 配置 读 写 
总 线 事务 。 在 配置 读 写 总 线 事务 的 地 址 周期 和 数据 周期 中 ，CONFIG_ADDRESS 和 CONFIG_ 
DATA 寄存 器 中 的 数据 将 被 放置 到 PCI 总 线 的 AD 总 线 上 。 其 中 Type 00h 和 Type 01h 配置 读 
写 总 线 事务 映射 到 AD 总 线 的 数据 并 不 相同 。 

其 中 Type 00h 配置 请 求 可 以 直接 读 取 PCI Agent 设备 的 配置 空间 ， 而 Type 01h 配置 请 求 
在 通过 PCI 桥 时 ， 最 终 将 被 转换 为 Type 00h 配置 请 求 ， 并 读 取 PCI Agent 设备 的 配置 寄存 
器 。 本 节 重 点 讲述 PCI 桥 如 何 将 Type 01h 配置 请 求 转换 为 Type 00h 配置 请 求 。 

首先 Type 00h 配置 请 求 不 会 被 转换 成 Type 01h 配置 请 求 ， 因 为 Type 00h 配置 请 求 是 发 
向 最 终 PCI Agent 设备 ， 这 些 PCI Agent 设备 不 会 转发 这 些 配 置 请 求 。 

当 CONFIG_ADDRESS 寄存 器 的 Bus Number 字段 为 0 时 ， 处 理 器 对 CONFIG_DATA 寄存 
器 操作 时 ，HOST 主 桥 将 直接 产生 Type 00h 配置 请 求 ， 挂 接 在 PCI 总 线 0 上 的 某 个 设备 将 通 
过 ID 译 码 接收 这 个 Type 00h 配置 请 求 ， 并 对 配置 寄存 器 进行 读 写 操作 。 如 果 PCI 总 线 上 没 
有 设备 接收 这 个 Type 00h 配置 请 求 ， 将 引发 Master Abort， 详 情 见 PCI 总 线 规范 ， 本 节 对 此 
不 做 进一步 说 明 。 

如 果 CONFIG_ADDRESS 寄存 器 的 Bus Number 字段 为 n(n 头 0)， 即 访问 的 PCI 设备 不 
是 直接 挂 接 在 PCI 总 线 0 上 的 ， 此 时 HOST 主 桥 对 CONFIG_DATA 寄存 器 操作 时 ， 将 产生 
Type 01h 配置 请 求 ，PCI 总 线 0 将 遍历 所 有 在 这 条 总 线 上 的 PCI 桥 ， 确 定 由 哪个 PCI 桥接 收 
这 个 Type 01h 配置 请 求 。 

如 果 n 大 于 或 等 于 某 个 PCI 桥 的 Secondary Bus Number 寄存 器 ， 而 且 小 于 或 等 于 Subor- 
dinate Bus number 寄存 器 ， 那 么 这 个 PCI 桥 将 接收 在 当前 PCI 总 线 上 的 Type 01 配置 请 求 ， 
并 采用 以 下 规则 进行 递归 处 理 。 

(1) 开始 。 

(2) 遍历 当前 PCI 总 线 的 所 有 PCI 桥 。 

(3) 如 果 n 等 于 某 个 PCI 桥 的 Secondary Bus Number 寄存 器 ， 说 明 这 个 Type 01 配置 请 
求 的 目标 设备 直接 连接 在 该 PCI 桥 的 Secondary bus 上 。 此 时 PCI 桥 将 Type 01 配置 请 求 转 
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换 为 Type 00h 配置 请 求 ， 并 将 这 个 配置 请 求 发 送 到 PCI 桥 的 Secondary Bus 上 ，Secondary 
Bus 上 的 某 个 设备 将 响应 这 个 Type 00h 配置 请 求 ， 并 与 HOST 主 桥 进 行 配置 信息 的 交换 ， 
转 (5)。 

(4) 如 果 n 大 于 PCI 桥 的 Secondary Bus Number 寄存 器 ， 而 且 小 于 或 等 于 PCI 桥 的 Sub- 
ordinate Bus number 寄存 器 ， 说 明 这 个 Type 01 配置 请 求 的 目标 设备 不 与 该 PCI 桥 的 Seconda- 
ry Bus 直接 相连 ,但 是 由 这 个 PCI 桥 下 游 总 线 上 的 某 个 PCI 桥 管理 。 此 时 PCI 桥 将 首先 认领 
这 个 Type 01 配置 请 求 ， 并 将 其 转发 到 Secondary Bus， 转 (2)。 

(5) 结束 。 

下 面 将 举例 说 明 PCI 总 线 配 置 请 求 的 转换 原则 ， 并 以 图 2-8 为 例 说 明 处 理 器 如 何 访问 
PCI 设备 01 和 PCI 设备 31 的 配置 空间 。PCI 设备 01 直接 与 HOST 主 桥 相连 ， 因 此 HOST 主 
桥 可 以 使 用 Type 00h 配置 请 求 访问 该 设备 。 

而 HOST 主 桥 需要 经 过 多 级 PCI 桥 才 能 访问 PCI 设备 31， 因 此 HOST 主 桥 需要 首先 使 用 
Type 01h 配置 请 求 ， 之 后 通过 PCI 桥 1、2 和 3 将 Type 01h 配置 请 求 转换 为 Type 00h 配置 请 
求 ， 最 终 访 问 PCI 设备 31。 

1. PCI 设备 01 

这 种 情况 较 易 处 理 ， 当 HOST 处 理 器 访问 PCI 设备 01 的 配置 空间 时 ， 发现 PCI 设备 01 
与 HOST 主 桥 直接 相连 ， 所 以 将 直接 使 用 Type 00h 配置 请 求 访问 该 设备 的 配置 空间 ， 具 体 步 
又 如 下 。 

首先 HOST 人 处理 如 将 CONFIG_ADDRESS 寄存 器 的 Enabled 位 置 1，Bus Number 号 置 为 
0， 并 对 该 寄存 央 的 Device 、Function 和 Register Number 字段 赋值 。 当 人 处理 硕 对 CONFIG_DA- 
TA 寄存 器 访问 时 ，HOST 主 桥 将 存放 在 CONFIG_ADDRESS 寄存 器 中 的 数值 ， 转 换 为 Type 
00h 配置 请 求 ， 并 发 送 到 PCI 总 线 0 上 ，PCI 设备 01 将 接收 这 个 Type 00h 配置 请 求 ， 并 与 处 
理 器 进行 配置 信息 交换 。 

2. PCI 设备 31 

HOST 处 理 器 对 PCI 设备 31 进行 配置 读 写 时 ,需要 通过 HOST 主 桥 、PCI 桥 1、2 和 3， 
最 终 到 达 PCI 设备 31。 

当 处 理 器 访问 PCI 设备 31 时 ， 首 先 将 CONFIG_ADDRESS 寄存 器 的 Enabled 位 置 1，Bus 
Number 字段 置 为 3， 并 对 Device 、Function 和 Register Number 字段 赋值 。 之 后 当 处 理 需 对 
CONFIG_DATA 寄存 器 进行 读 写 访 问 时 ，HOST 主 桥 、PCI 桥 1、2 和 3 将 按照 以 下 步骤 进行 
处 理 ， 最 后 PCI 设备 31 将 接收 这 个 配置 请 求 。 

(1) HOST 主 桥 发 现 Bus Number 字段 的 值 为 3， 该 总 线 号 并 不 是 与 HOST 主 桥 直接 相连 
的 PCI 总 线 的 Bus Number， 所 以 HOST 主 桥 将 处 理 器 对 CONFIG_DATA 寄存 器 的 读 写 访问 直 
接 转换 为 Type 01h 配置 请 求 ， 并 将 这 个 配置 请 求 发 送 到 PCI 总 线 0 上 。PCI 总 线 规定 Type 
01h 配置 请 求 只 能 由 PCI 桥 负责 处 理 。 

(2) 在 PCI 总 线 0 上 ， PCI 桥 1 的 Secondary Bus Number 为 1 而 Subordinate Bus Number 
为 3。 而 1<Bus Number 和 3， 所 以 PCI 桥 1 将 接收 来 自 PCI 总 线 0 的 Type 01h 配置 请 求 ， 并 
将 这 个 配置 请 求 直 接 下 推 到 PCI 总 线 1 。 

(3) 在 PCI 总 线 1 上 ，PCI 桥 2 的 Secondary Bus Number 为 2 而 Subordinate Bus Number 
为 3。 而 1<Bus Number 和 3， 所 以 PCI 桥 2 将 接收 来 自 PCI 总 线 0 的 Type 01h 配置 请 求 ， 并 
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将 这 个 配置 请 求 直接 下 推 到 PCI 总 线 2。 

(4) 在 PCI 总 线 2 上 ，PCI 桥 3 的 Secondary Bus Number 为 3， 因 此 PCI 桥 3 将 “来 自 
PCI 总 线 2 的 Type 01h 配置 请 求 ” 转 换 为 Type 00h 配置 请 求 ， 并 将 其 下 推 到 PCI 总 线 3。 
PCI 总 线 规定 ， 如 果 PCI 桥 的 Secondary Bus Number 与 Type 01h 配置 请 求 中 包含 的 Bus Num- 
ber 相同 时 ， 该 PCI 桥 将 接收 的 Type 01h 配置 请 求 转 换 为 Type 00h 配置 请 求 ， 然 后 再 发 向 其 
Secondary Bus。 

(5) 在 PCI 总 线 3 上 ， 有 两 个 设备 : PCI 设备 31 和 PCI 设备 32。 在 这 两 个 设备 中 ， 必 
然 有 一 个 设备 将 要 响应 这 个 Type 00h 配置 请 求 ， 从 而 完成 整个 配置 请 求 周期 。 在 第 2.4.1 
节 中 ， 讨 论 了 究竟 是 PCI 设备 31 还 是 PCI 设备 32 接收 这 个 配置 请 求 ， 这 个 问题 涉及 PCI 总 
线 如 何 分 配 PCI 设备 使 用 的 设备 号 。 


2.4.3 PCI 总 线 树 Bus 号 的 初始 化 


在 一 个 处 理 器 系统 中 ， 每 一 个 HOST 主 桥 都 推出 一 棵 PCI 总 线 树 。 在 一 棵 PCI 总 线 树 中 
有 多 少 个 PCI 桥 (包括 HOST 主 桥 ) ， 就 含有 多 少 条 PCI 总 线 。 系 统 软 件 在 遍历 当前 PCI 总 
线 树 时 ， 需 要 首先 对 这 些 PCI 总 线 进行 编号 ， 即 初始 化 PCI 桥 的 Primary 、Secondary 和 Sub- 
ordinate Bus Number 寄存 器 。 

在 一 个 处 理 器 系统 中 ， 一 般 将 与 HOST 主 桥 直接 相连 的 PCI 总 线 命 名 为 PCI 总 线 0。 然 
后 系统 软件 使 用 DFS (Depth First Search) 算法 ,依次 对 其 他 PCI 总 线 进行 编号 。 值 得 注意 
是 , 与 HOST 主 桥 直接 相连 的 PCI 总 线 ， 其 编号 都 为 0， 因 此 当 处 理 器 系统 中 存在 多 个 
HOST 主 桥 时 ， 将 有 多 个 编号 为 0 的 PCI 总 线 ， 但 是 这 些 编号 为 0 的 PCI 总 线 分 属 不 同 的 
PCI 总 线 域 ， 其 含义 并 不 相同 。 

在 一 个 处 理 器 系统 中 ， 假 设 PCI 总 线 树 的 结构 如 图 2-13 所 示 。 当 然 在 一 个 实际 的 处 理 
器 系统 中 ， 很 少 会 出 现 这 样 复杂 的 PCI 总 线 树 结构 ， 本 节 采 用 这 个 结构 的 目的 是 便于 说 明 
PCI 总 线 号 的 分 配 过 程 。 
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在 PCI 总 线 中 ， 系 统 软件 使 用 深度 优先 DFS 算法 对 PCI 总 线 树 进行 遍历 ，DFS 算法 和 广 
度 优 先 BFS (Breadth First Search) 算法 是 遍历 树 型 结构 的 常用 算法 。 与 BFS 算法 相 比 ，DFS 
算法 的 空间 复杂 度 较 低 ， 因 此 绝 大 多 数 系统 在 遍历 PCI 总 线 树 时 ， 都 使 用 DFS 算法 而 不 是 
BFS 算法 。 

DFS 是 搜索 算法 的 一 种 ， 其 实现 机 制 是 沿 着 一 棵 树 的 深度 遍历 各 个 节点 ， 并 尽 可 能 深 地 
搜索 树 的 分 支 ，DFS 的 算法 为 线性 时 间 复 杂 度 ， 适 合 对 拓扑 结构 未 知 的 树 进行 遍历 。 在 一 个 
处 理 吉 系统 的 初始 化 阶段 ，PCI 总 线 树 的 拓扑 结构 是 未 知 的 ， 适 合 使 用 DFS 算法 进行 遍历 。 
下 面 以 图 2-13 为 例 ， 说 明 系 统 软件 如 何 使 用 DFS 算法 ,分 配 PCI 总 线 号 ， 并 初始 化 PCI 桥 
中 的 Primary Bus Number 、Secondary Bus Number 和 Subordinate Bus number 寄存 器 。 所 谓 DFS 
算法 是 指 按照 深度 优先 的 原则 遍历 PCI 胖 树 ， 其 步骤 如 下 。 

(1) HOST 主 桥 扫描 PCI 总 线 0 上 的 设备 。 系 统 软件 首先 忽略 这 条 总 线 上 的 所 有 PCI 
Agent 设备 ， 因 为 在 这 些 设备 之 下 不 会 挂 接 新 的 PCI 总 线 。 例 如 PCI 设备 01 下 不 可 能 挂 接 新 
的 PCI 总 线 。 

(2) HOST 主 桥 首 先 发 现 PCI 桥 1， 并 将 PCI 桥 1 的 Secondary Bus 命名 为 PCI 总 线 1。 系 
统 软件 将 初始 化 PCI 桥 1 的 配置 空间 ， 将 PCI 桥 1 的 Primary Bus Number 寄存 器 赋值 为 0， 
而 将 Secondary Bus Number 寄存 器 赋值 为 1， 即 PCI 桥 1 的 上 游 PCI 总 线 号 为 0， 而 下 游 PCI 
总 线 号 为 1。 

(3) 扫描 PCI 总 线 1， 发 现 PCI 桥 2， 并 将 PCI 桥 2 的 Secondary Bus 命名 为 PCI 总 线 2。 
系统 软件 将 初始 化 PCI 桥 2 的 配置 空间 , 将 PCI 桥 2 的 Primary Bus Number 寄存 器 赋值 为 1 ， 
而 将 Secondary Bus Number 寄存 器 赋值 为 2。 

(4) 扫描 PCI 总 线 2， 发 现 PCI 桥 3， 并 将 PCI 桥 3 的 Secondary Bus 命名 为 PCI 总 线 3。 
系统 软件 将 初始 化 PCI 桥 3 的 配置 空间 , 将 PCI 桥 3 的 Primary Bus Number 寄存 器 赋值 为 2 ， 
而 将 Secondary Bus Number 寄存 器 赋值 为 3。 

(5) 扫描 PCI 总 线 3， 没 有 发 现任 何 PCI 桥 ， 这 表示 PCI 总 线 3 下 不 可 能 有 新 的 总 线 ， 
此 时 系统 软件 将 PCI 桥 3 的 Subordinate Bus number 寄存 器 赋值 为 3。 系 统 软件 在 完成 PCI 总 
线 3 的 扫描 后 ,将 回 退 到 PCI 总 线 3 的 上 一 级 总 线 ， 即 PCI 总 线 2， 继 续 进 行 扫 描 。 

(6) 在 重新 扫描 PCI 总 线 2 时 ， 系 统 软件 发 现 PCI 总 线 2 上 除了 PCI 桥 3 之 外 没有 发 现 
新 的 PCI 桥 ， 而 PCI 桥 3 之 下 的 所 有 设备 已 经 完成 了 扫描 过 程 ， 此 时 系统 软件 将 PCI 桥 2 的 
Subordinate Bus number 寄存 器 赋值 为 3。 继 续 回 退 到 PCI 总 线 1 。 

(7) PCI 总 线 1 上 除了 PCI 桥 2 外 ,没有 其 他 桥 片 ， 于 是 继续 回 退 到 PCI 总 线 0， 并 将 
PCI 桥 1 的 Subordinate Bus number 寄存 器 赋值 为 3。 

(8) 在 PCI 总 线 0 上 ， 系 统 软件 扫描 到 PCI 桥 4， 则 首先 将 PCI 桥 4 的 Primary Bus Num- 
ber 寄存 如 赋值 为 0， 而 将 Secondary Bus Number 寄存 器 赋值 为 4， 即 PCI 桥 1 的 上 游 PCI 总 
线 号 为 0， 而 下 游 PCI 总 线 号 为 4。 

(9) 系统 软件 发 现 PCI 总 线 4 上 没有 任何 PCI 桥 ， 将 结束 对 PCI 总 线 4 的 扫描 ， 并 将 
PCI 桥 4 的 Subordinate Bus number 寄存 器 赋值 为 4， 之 后 回 退 到 PCI 总 线 4 的 上 游 总 线 ， 即 
PCI 总 线 0 继续 进行 扫描 。 

(10) 系统 软件 发 现在 PCI 总 线 0 上 的 两 个 桥 片 PCI 总 线 0 和 PCI 总 线 4 都 已 完成 扫描 
后 ， 将 结束 对 PCI 总 线 的 DFS 遍历 全 过 程 。 
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从 以 上 算法 可 以 看 出 ，PCI 桥 的 Primary Bus 和 Secondary Bus 号 的 分 配 在 遍历 PCI 总 线 
树 的 过 程 中 从 上 向 下 分 配 ， 而 Subordinate Bus 号 是 从 下 向 上 分 配 的 ， 因 为 只 有 确定 了 一 个 
PCI 桥 之 下 究竟 有 多 少 条 PCI 总 线 后 ， 才 能 初始 化 该 PCI 桥 的 Subordinate Bus 号 。 


2.4.4 PCI 总 线 Device 号 的 分 配 


一 条 PCI 总 线 会 挂 接 各 种 各 样 的 PCI 设备 ， 而 每 一 个 PCI 设备 在 PCI 总 线 下 具有 唯一 的 
设备 号 。 系 统 软 件 通过 总 线 号 和 设备 号 定位 一 个 PCI 设备 之 后 ， 才 能 访问 这 个 PCI 设备 的 配 
置 寄 存 器 。 值 得 注意 的 是 ， 系 统 软件 使 用 “地 址 寻 址 方式 ”访问 PCI 设备 的 存储 器 和 I/O 
地 址 空间 ， 这 与 访问 配置 空间 使 用 的 “ID 寻 址 方式 ”不 同 。 

PCI 设备 的 IDSEL 信号 与 PCI 总 线 的 AD [31:0] 信号 的 连接 关系 决定 了 该 设备 在 这 条 
PCI 总 线 的 设备 号 。 如 上 文 所 述 ， 每 一 个 PCI 设备 都 使 用 独立 的 IDSEL 信和 号， 该 信号 将 与 
PCI 总 线 的 AD [31:0] 信号 连接 ，IDSEL 信和 号 的 含义 见 第 1.2.2 节 。 

在 此 我 们 简要 回顾 PCI 的 配置 读 写 事务 使 用 的 时 序 。 如 图 1-3 所 示 ，PCI 总 线 事务 由 一 
个 地 址 周期 加 若干 个 数据 周期 组 成 。 在 进行 配置 读 写 请 求 总 线 事务 时 ，CZBE# 信 和 号 线 的 值 在 
地 址 周期 中 为 0x1010 或 者 为 0x1011 ， 表 示 当 前 总 线 事务 为 配置 读 或 者 配置 写 请 求 。 此 时 出 
现在 AD [31:0] 总 线 上 的 值 并 不 是 目标 设备 的 PCI 总 线 地 址 ， 而 是 目标 设备 的 ID 号 ， 这 
与 PCI 总 线 进 行 VO 或 者 存储 器 请 求 时 不 同 ， 因 为 PCI 总 线 使 用 ID 号 而 不 是 PCI 总 线 地 址 
对 配置 空间 进行 访问 。 

如 图 2-12 所 示 ， 在 配置 读 写 总 线 事 务 的 地 址 周期 中 ，AD [10:0] 信号 已 经 被 Function 
Number 和 Register Number 使 用 ， 因 此 PCI 设备 的 IDSEL 只 能 与 AD [31: 11] 信号 连接 。 

认真 的 读者 一 定 可 以 发 现在 CONFIG_ADDRESS 寄存 器 中 Device Number 字段 一 共有 5 
位 可 以 表示 32 个 设备 , 而 AD [31:11] 只 有 21 位 ， 显 然 在 这 两 者 之 间 无 法 建立 一 一 对 应 
的 映射 关系 。 因 此 在 一 条 PCI 总 线 上 如 果 有 21 个 以 上 的 PCI 设备 ,那么 总 是 有 几 个 设备 无 
法 与 AD [31:11] 信和 号 线 连接 ， 从 而 PCI 总 线 无 法 访问 这 些 设备 。 因 为 PCI 总 线 在 配置 请 
求 的 地 址 周期 中 ， 只 能 使 用 第 31 ~ 11 这 些 AD 信号 ， 所 以 在 一 条 总 线 上 最 多 也 只 能 挂 接 21 
个 PCI 设 备 。 这 21 个 设备 可 能 是 从 0 到 20， 也 可 能 是 从 11 到 31 排列 。 从 而 系统 软件 在 遍 
历 PCI 总 线 时 ， 还 是 需要 从 0 到 31 遍历 整 条 PCI 总 线 。 

在 实际 的 应 用 中 ， 一 条 PCI 总 线 能 够 挂 接 21 个 设备 已 经 足够 了 ， 实 际 上 由 于 PCI 总 线 
的 负载 能 力 有 限 ， 即 便 在 总 线 频率 为 33 MHz 的 情况 下 ， 在 一 条 PCI 总 线 中 最 多 也 只 能 挂 接 
10 个 负载 ， 一 条 PCI 总 线 所 能 挂 接 的 负载 详 见 表 1-1。AD 信号 线 与 PCI 设备 IDSEL 线 的 连 
接 关 系 如 图 2-14 所 示 。 


IDSEL IDSEL IDSEL 
PCI 设 备 0 PCI 设 备 1 PCI 设 备 n-16 


图 2-14 PCI 总线 设备 号 的 分 配 


IDSEL 
PCI 设 备 15 
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PCI 总 线 推荐 了 一 种 Device Number 字段 与 AD [31:16] 之 间 的 映射 关系 。 其 中 PCI 设 
备 0 与 Device Number 字段 的 0b00000 对 应 ; PCI 设备 1 与 Device Number 字段 的 0b00001 对 
应 ， 并 以 此 类 推 ，PCI 设备 15 与 Device Number 字段 的 0b01111 对 应 。 

在 这 种 映射 关系 之 下 ， 一 条 PCI 总 线 中 ， 与 信号 线 AD16 相连 的 PCI 设备 的 设备 号 为 0; 
与 信号 线 AD17 相连 的 PCI 设备 的 设备 号 为 1; 以 此 类 推 ， 与 信号 线 AD31 相连 的 PCI 设备 
的 设备 号 为 13。 在 Type 00h 配置 请 求 中 ， 设 备 号 并 没有 像 Function Number 和 Register Num- 
ber 那样 以 编码 的 形式 出 现在 AD 总 线 上 ， 而 是 与 AD 信和 号 对 应 ， 如 图 2-12 所 示 。 

这 里 有 一 个 原则 需要 读者 注意 ， 就 是 对 PCI 设备 的 配置 寄存 器 进行 访问 时 ， 一 定 要 有 确 
定 的 Bus Number、Device Number、Function Number 和 Register Number， 这 “四 元 组 ” 缺 一 
不 可 。 在 Type 00h 配置 请 求 中 ，Device Number 由 AD [31: 11] 信和 号 线 与 PCI 设 备 IDSEL 信 
号 的 连接 关系 确定 ; Function Number 保存 在 AD [10:8] 字段 中 ; 而 Register Number 保存 在 
AD [7:0] 字段 中 ; 在 Type 01h 配置 请 求 中 ， 也 有 完整 的 四 元 组 信息 。 

在 一 个 处 理 器 系统 的 设计 中 ， 如 果 在 一 条 PCI 总 线 上 使 用 的 PCI 持 槽 少 于 4 个 时 ， 笔 者 
建议 优先 使 用 AD [17:20] 信号 与 PCI 设备 的 IDSEL 信号 连接 。 因 为 PCI-X 总 线 规范 建议 
使 用 AD17 连接 PCI 设备 1、AD18 连接 PCI 设备 2、AD19 连接 PCI 设备 3 、AD20 连接 PCI 
设备 4， 采 用 这 种 方法 便于 实现 PCI 总 线 与 PCI-X 总 线 的 兼容 。 


2.5 非 透明 PCI 桥 


PCI 桥 规 范 定义 了 透明 桥 的 实现 规则 ， 在 第 2. 3. 1 节 中 详细 介绍 了 这 种 桥 片 。 通 过 透明 
桥 ， 处 理 器 系统 可 以 以 HOST 主 桥 为 根 节 点 ， 建 立 一 颗 PCI 总 线 树 ， 在 这 个 树 上 的 PCI 设备 
共享 同一 个 PCI 总 线 域 上 的 地 址 空间 。 

但 是 在 某 些 场合 下 PCI 透明 桥 并 不 适用 。 在 图 2-15 所 示 的 处 理 器 系统 中 存在 两 个 处 理 
器 ， 此 时 使 用 PCI 桥 1 连接 处 理 器 2 并 不 利于 整个 处 理 器 系统 的 配置 与 管理 。 假 定 PCI 总 线 
使 用 32 位 地 址 空间 ， 而 处 理 器 1 和 处 理 器 2 所 使 用 的 存储 器 大 小 都 为 2GB， 同 时 假定 处 理 
器 1 和 处 理 器 2 使 用 的 存储 器 都 可 以 被 PCI 设备 访问 。 


存储 器 


控制 器 


PCI 总 线 x0 


图 2-15 不 适合 PCI 透明 桥 的 处 理 髓 系统 互 连 方式 
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此 时 处 理 器 1 和 2 使 用 的 存储 器 空间 必须 映射 到 PCI 总 线 的 地 址 空间 中 ， 而 32 位 的 PCI 
总 线 只 能 提供 4GB 地 址 空间 ， 此 时 PCI 总 线 x0 的 地 址 空间 将 全 部 被 处 理 器 1 和 2 的 存储 器 
空间 占用 ， 而 没有 额外 的 空间 分 配给 PCI 设备 。 

此 外 有 些 处 理 需 不 能 作为 PCI Agent 设备 ， 因 此 不 能 直接 连接 到 PCI 桥 上 ， 比 如 x86 处 
理 器 就 无 法 作为 PCI Agent 设备 ， 因 此 使 用 PCI 透明 桥 无 法 将 两 个 x86 处 理 器 直接 相连 。 如 
果 处 理 器 2 有 两 个 以 上 的 PCI 接口 ， 其 中 一 个 可 以 与 PCI 桥 1 相连 (此 时 处 理 器 2 将 作为 
PCI Agent 设备 ) ， 而 男 一 个 作为 HOST 主 桥 y 连接 PCI 设备 。 此 时 HOST 主 桥 y 挂 接 的 PCI 
设备 将 无 法 被 处 理 器 1 直接 访问 。 

使 用 透明 桥 也 不 便于 解决 处 理 器 1 与 处 理 器 2 间 的 地 址 冲突 。 对 于 图 2-15 所 示 的 处 理 
器 系统 ， 如 果 处 理 器 1 和 2 都 将 各 自 的 存储 器 映射 到 PCI 总 线 地 址 空间 中 ， 有 可 能 出 现 地 址 
冲突 。 虽 然 PowerPC 处 理 器 可 以 使 用 Inbound 寄存 器 ， 将 存储 器 地 址 空间 映射 到 不 同 的 PCI 
总 线 地 址 空间 中 ， 但 并 非 所 有 的 处 理 器 都 具有 这 种 映射 机 制 。 许 多 处 理 需 的 存储 器 地 址 与 
PCI 总 线 地 址 使 用 了 “简单 相等 ”这 种 映射 方法 ， 如 果 PCI 总 线 连接 了 两 个 这 样 的 处 理 器 ， 
将 不 可 避免 地 出 现 PCI 总 线 地 址 的 映射 冲突 。 

采用 非 透 明 桥 将 有 效 解决 以 上 这 些 问 题 ， 非 透明 桥 并 不 是 PCI 总 线 定义 的 标准 桥 片 ， 但 
是 这 类 桥 片 在 连接 两 个 处 理 器 系统 中 得 到 了 广泛 的 应 用 。 一 个 使 用 非 透 明 桥 连接 两 个 处 理 器 
系统 的 实例 如 图 2-16 所 示 。 


存储 器 x 域 空间 存储 器 y 域 空间 
了 = 一 一 ee 


Primary PCI Bus 


PCI 设 备 x1 PCI 设 备 x2 | 、 | PCI 设 备 y1 PCI 设 备 y2 
PCI 总 线 x 域 空间 一 一 一 一 一 一 pI 总 线 y 域 空间 


图 2-16 使 用 PCI 非 透明 桥 连接 两 个 处 理 絮 系统 


使 用 非 透 明 PCI 桥 可 以 方便 地 连接 两 个 处 理 器 系统 。 从 图 2-16 中 我 们 可 以 发 现 非 透 明 
桥 可 以 将 PCI 总 线 x 域 与 PCI 总 线 y 域 进 行 隔离 。 值 得 注意 的 是 ， 非 透明 PCI 桥 的 作用 是 对 
不 同 PCI 总 线 域 地 址 空间 进行 隔离 ， 而 不 是 隔离 存储 器 域 地址 空间 。 而 HOST 主 桥 的 作用 才 
是 将 存储 器 域 与 PCI 总 线 域 进行 隔 离 。 

非 透明 PCI 桥 可 以 连接 两 条 独立 的 PCI 总 线 ， 一 条 被 称 为 Secondary PCI 总 线 ， 另 一 条 
被 称 为 Primary PCI 总 线 ， 但 是 这 两 条 总 线 没有 从 属 关 系 ， 两 边 是 对 等 的 9 。 从 处 理 器 x 的 角 


提 有 些 非 透明 桥 ， 如 DEC21554 的 两 边 并 不 是 完全 对 等 的 ， 尤 其 是 在 处 理 64 位 地 址 空间 时 ， 本 文 对 此 不 做 详细 
说 明 。 
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度 来 看 ， 与 非 透 明 PCI 桥 右 边 连接 的 总 线 叫 Secondary PCI 总 线 ; 而 从 处 理 絮 y 的 角度 来 看 ， 
非 透 明 PCI 桥 左 边 连接 的 总 线 叫 Secondary PCI 总 线 。 

HOST 处 理 器 x 和 PCI 设备 可 以 通过 非 透明 PCI 桥 直接 访问 PCI 总 线 y 域 的 地 址 空间 ， 
并 通过 HOST 主 桥 y 访问 存储 器 y; HOST 处 理 右 y 和 PCI 设备 也 可 以 通过 非 透 明 PCI 桥 ， 直 
接 访问 PCI 总 线 x 域 的 地 址 空间 ， 并 通过 HOST 主 桥 x 访问 存储 器 x。 为 此 非 透明 PCI 桥 需 
要 对 分 属 不 同 PCI 总 线 域 的 地 址 空间 进行 转换 。 

目前 有 许多 厂商 可 以 提供 非 透 明 PCI 桥 的 芯片 ， 在 具体 实现 上 各 有 差异 ， 但 是 其 基本 原 
理 类 似 ， 下 面 以 Intel 21555 为 例 说 明 非 透明 PCI 桥 。 值 得 注意 的 是 ， 在 PCIe 体系 结构 中 ， 
也 存在 非 透明 PCI 桥 的 概念 。 


2. 5. 1 Intel 21555 中 的 配置 寄存 器 


Intel 21555 非 透明 PCI 桥 源 于 DEC21554” ， 并 在 此 基础 上 做 了 一 些 改动 。Intel 21555 桥 
片 与 其 他 透明 桥 在 系统 中 的 位 置 相同 。 如 图 2-16 所 示 ， 这 个 桥 片 一 边 与 Primary PCI 总 线 相 
连 ， 另 一 边 与 Secondary PCI 总 线 相连 。 

在 Intel 21555 桥 片 中 ,包含 两 个 PCI 设备 配置 空间 ， 分别 是 Primary PCI 总 线 配置 空间 
和 Secondary PCI 总 线 配 置 空间 ， 处 理 器 可 以 使 用 Type 00h 配置 请 求 访问 这 些 配置 空间 。 在 
大 多 数 情 况 之 下 ， 在 Primary PCI 总 线 上 的 HOST 处 理 帮 管理 Primary PCI 配置 空间 ; 在 Sec- 
ondary PCI 总 线 上 的 HOST 处 理 器 管理 Secondary PCI 配置 空间 2 。 

在 Intel 21555 桥 片 中 ,还 有 一 组 私有 寄存 大 CSR (Control and Status Register) ， 系 统 软 
件 使 用 这 组 寄存 需 对 非 透 明 桥 进行 管理 并 获得 桥 片 的 一 些 信息 ， 这 组 寄存 器 可 以 被 映射 成 为 
PCI 总 线 的 存储 器 地 址 空间 或 者 IO 地 址 空间 。 

本 章 仅 介绍 Primary PCI 总 线 这 一 边 的 配置 寄存 器 ，Secondary PCI 总 线 的 配置 寄存 髓 虽 
然 与 Primary PCI 总 线 的 这 些 寄存 器 略 有 不 同 ， 但 是 基本 对 等 ， 因 此 本 节 对 此 不 做 介绍 。Pri- 
mary PCI 总 线 的 主要 寄存 器 如 表 2-6 所 示 。 


表 2-6 Primary PCI 总 线 的 配置 寄存 器 


Offset 寄 存 器 PCI 配 置 寄存 器 复 位 值 
0x13 ~0x10 Primary CSR and Memory 0 BAR BARO 0x0000-0000 
0x17 ~0xl14 Primary CSR 1/0 BAR BARI1 0x0000-0001 
0xlB ~0x18 Downstream Memory 1 BAR BAR2 0x0000-0000 
0xlF~0xlC Downstream Memory 2 BAR BAR3 0x0000-0000 
0x23 ~0x20 Downstream Memory 3 BAR BAR4 0x0000-0000 
0x27 ~0x24 Downstream Memory 3 Upper 32 Bits BAR5 0x0000-0000 
0x97 ~0x94 Downstream Memory 0 Translated Base None 不 确定 
0x9B ~ 0x98 Downstream 1/O or Memory 1 Translated Base None 不 确定 
0x9F ~0x9C Downstream Memory 2 Translated Base None 不 确定 
0xA3 ~OxA0 Downstream Memory 3 Translated Base None 不 确定 


DEC21554 是 Digital 公司 的 产品 。 
外 mtel 21555 非 透 明 桥 片 两 边 的 HOST 处 理 器 都 可 以 访问 Primary 和 Secondary 总 线 的 配置 寄存 器 。 
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从 表 2-6 中 ,我们 可 以 发 现 Primary PCI 总 线 的 这 些 配 置 寄存 器 共 分 为 两 组 ,一 组 寄存 器 
与 PCI 设备 的 配置 寄存 咒 的 BARO0 ~5 对 应 ,这 些 寄存 器 与 标准 PCI 配置 寄存 器 BARO ~5 的 
功能 相同 ; 男 一 组 寄存 器 是 Translated Base 寄存 器 ,这 组 寄存 器 的 主要 作用 是 将 来 自 Primary 
PCI 总 线 的 数据 访问 转换 到 Secondary PCI 总 线 。 

其 中 BARO ~5 寄存 器 在 系统 初始 化 时 由 Primary PCI 总 线 上 的 HOST 处 理 器 进行 配置 , 配 
置 过 程 与 PCI 总 线 上 的 普通 设备 完全 相同 。 只 是 Intel 21555 规定 ,BARO 只 能 映射 为 32 位 存 
储 絮 空间 。 

CSR 寄存 器 可 以 根据 需要 映射 在 BARO 空间 中 ,此 时 BARO 空间 最 小 为 4 KB。CSR 寄存 
器 也 可 以 根据 需要 使 用 BAR1 寄存 器 映射 为 IO 地 址 空间 ,同时 BAR1 寄存 器 还 可 以 映射 其 
他 IO 空间 ;BAR2 ~3 只 能 映射 为 32 位 存储 器 地 址 空间 ;而 BAR4 ~5 用 来 映射 64 位 的 存储 
人 帮 地 址 空间 。 

对 于 Primary PCI 总 线 , 所 有 BARO ~5 寄存 器 映射 的 地 址 空间 都 将 占用 Primary PCI 总 线 
域 , 然 而 这 些 地 址 空间 中 所 对 应 的 数据 并 不 在 Primary PCI 总 线 域 中 , 而 是 在 Secondary PCI 总 
线 域 中 。Translated Base 寄存 器 实现 不 同 PCI 总 线 域 地 址 空间 的 转换 ,Intel 21555 将 不 同 PCI 
总 线 域 地 址 空间 的 转换 过 程 称 为 “地 址 翻译 ”。 

Intel 21555 支持 两 种 地 址 翻译 方法 ,一 种 是 直接 地 址 翻译 , 另 一 种 是 查 表 翻 译 。Primary 
PCI 总 线 的 BAR 空间 只 支持 直接 地 址 翻译 ,而 Secondary PCI 总 线 的 Memory 2 BAR 空间 支持 
查 表 翻 译 ,本 节 仅 介绍 直接 地 址 翻译 方法 ,对 查 表 翻译 有 兴趣 的 读者 请 阅读 Intel 21555 的 数据 
手册 2 。 直 接地 址 翻译 过 程 如 图 2-17 所 示 。 


Primary PCI Bus 


Original Address 


Translated Base 
寄存 器 
Translated Address 


| Translated Base | ofset | 
Secondary PCI Bus 
图 2-17 21555 的 直接 地 址 翻译 过 程 


当 Primary PCI 总 线 对 非 透明 桥 21555 的 BAR0 ~ 5 地 址 空间 进行 数据 请 求 时 , 这 个 数据 
请 求 将 被 转换 为 对 Secondary PCI 总 线 的 数据 请 求 。Translated Base 寄存 需 将 完成 这 个 地 址 翻 
译 过 程 ,下 市 将 结合 实例 说 明 这 个 直接 地 址 翻译 过 程 。 


2. 5.2 通过 非 透明 桥 片 进行 数据 传递 


下 面 以 图 2-16 中 处 理 需 x 访问 处 理 咒 y 存储 器 地 址 空间 的 实例 ,说 明 非 透明 桥 21555 如 
何 将 PCI 总 线 x 域 与 PCI 总 线 y 域 联系 在 一 起 。 
处理 絮 x 在 访问 处 理 咒 y 的 存储 器 空间 之 前 ,需要 做 一 些 必 要 的 准备 工作 。 


Ely 
[dll 


重 硬件 电气 特性 , User Man- 


(© 数 半导体 厂商 提供 两 类 芯片 手册 ,分 别 是 Datasheet 和 User manual。 其 中 Datasheet 
ual 偏重 芯片 使 用 原理 。 
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(1) 首先 确定 由 哪 一 个 BAR 寄存 器 空间 映射 处 理 需 y 的 存储 需 地 址 空间 。 本 节 假 定 使 
用 BAR2 寄存 器 映射 处 理 器 y 的 存储 器 地 址 空间 。 

(2) BAR2 寄存 器 使 用 Downstream Memory 2 Translated Base 寄存 器 ,将 来 自 Primary PCI 
总 线 的 访问 转换 为 对 Secondary PCI 总 线 地 址 空间 的 访问 。 其 中 Downstream Memory 2 Transla- 
ted Base 寄存 器 可 以 由 处 理 需 x 或 者 处 理 需 y 根据 需要 进行 设置 。 

假定 处 理 器 x 和 y 的 HOST 主 桥 使 用 “直接 相等 "策略 ,建立 存储 器 域 与 PCI 总 线 域 间 的 
映射 ;而 处 理 器 x 使 用 BAR2 地 址 空间 访问 处 理 器 y 存储 器 空间 0x1000 - 000 ~ OxlFFF - 
FFFF; 处理 器 x 的 系统 软件 事先 将 BAR2 寄存 器 设 置 完毕 。 处 理 器 x 访问 处 理 器 y 的 这 段 存 
储 絮 空间 的 步骤 如 下 ,读者 可 参考 图 2-18 理解 以 下 步骤 。 

(1) 首先 处 理 器 x 访问 在 处 理 右 x 域 中 , 且 与 非 透明 桥 的 BAR2 空间 相对 应 的 存储 器 地 
址 空间 。 

(2) HOST 主 桥 将 进行 存储 器 域 到 PCI 总 线 域 的 转换 ,并 将 这 个 请 求 发 送 到 Primary PCI 
总 线 上 。 

(3) 非 透 明 桥 发 现 这 个 数据 请 求 发 向 BAR2 地 址 空间 , 则 接收 这 个 数据 请 求 ,并 在 桥 片 中 
暂 存 这 个 数据 请 求 。 

(4) 非 透 明 桥 根据 Downstream Memory 2 Translated Base 寄存 器 的 内 容 ,按照 图 2-17 所 示 
的 规则 进行 地 址 转换 。 假 设 Downstream Memory 2 Translated Base 寄存 需 的 基地 址 被 预先 设置 
为 0x1000 - 0000 ,大 小 为 2356MB( 这 个 物理 地 址 属于 处 理 器 y 的 主 存储 器 地 址 空间 ) 。 

(5) 经 过 非 透 明 桥 的 转换 后 ,这 个 数据 请 求 将 穿越 非 透明 桥 ,从 Primary PCI 总 线 域 进入 
Secondary PCI 总 线 域 ,然后 访问 处 理 器 y 的 基地 址 为 0x1000 -0000 的 存储 器 区 域 。 

(6) 处 理 器 y 的 HOST 主 桥接 收 这 个 存储 器 访问 请 求 ,并 最 终 将 数据 请 求 发 向 处 理 器 y 
的 存储 需 中 。 


处 理 器 y 


Secondary PCI Bus 


Translated Base 


rr As -一 
| _， 非 透 明 桥 片 21555 


图 2-18 通过 非 透 明 桥 21555 进行 数据 传递 


非 透明 桥 21555 除了 可 以 支持 存储 器 到 存储 器 之 间 的 数据 传递 ,还 支持 PCI 总 线 域 到 存 
储 器 域 ,以 及 PCI 总 线 域 之 间 的 数据 传递 ,此 外 非 透 明 桥 21555 还 可 以 通过 了 了 O 和 Doorbell 寄 
存 器 进行 Primary PCI 总 线 与 Secondary PCI 总 线 之 间 的 中 断 信 号 传递 。 本 节 对 这 部 分 内 容 不 
做 进一步 介绍 。 

非 透 明 桥 有 效 解决 了 使 用 PCI 总 线 连接 两 个 处 理 器 存在 的 问题 ,因而 得 到 了 广泛 的 应 用 。 
在 PCle 体系 结构 中 ,也 存在 非 透 明 PCI 桥 的 概念 。 如 在 PLX 的 Switch 芯片 中 ,各 个 端口 都 可 
以 设置 为 非 透 明 模 式 。 


64 


2.6 小 结 


本 章 介绍 了 在 PCI 总 线 中 使 用 的 桥 , 包 括 HOST 主 桥 和 PCI 桥 ,并 较 详 细 地 介绍 了 如 何 使 
用 这 些 桥 访 问 PCI 设备 的 配置 空间 。 

其 中 HOST 主 桥 并 不 在 PCI 总 线 规范 的 约束 范围 内 ,不 同 的 处 理 器 可 以 根据 需要 设计 出 
不 同 的 HOST 主 桥 。 本 章 更 加 侧重 介绍 PowerPC 处 理 器 使 用 的 HOST 主 桥 ,在 该 主 桥 的 设计 
中 ,提出 了 许多 新 的 概念 ,并 极 大 促进 了 PCI 总 线 的 发 展 ,在 这 个 桥 片 中 出 现 的 许多 新 的 思想 
被 PCI V3.0 总 线 规范 采纳 。 

在 PowerPC 处 理 带 的 HOST 主 桥 中 ,明确 了 存储 器 域 与 PCI 总 线 域 的 概念 。 而 区 分 存储 
器 域 与 PCI 总 线 域 也 是 本 章 的 书写 重点 ,本 书 将 始终 强调 这 两 个 域 的 不 同 。 有 些 处 理 器 系统 
并 没有 明确 区 分 这 两 个 域 的 差别 ,因此 许多 读者 忽略 了 PCI 总 线 域 的 存在 ,并 错误 地 认为 PCI 
总 线 域 是 存储 器 域 的 一 部 分 。 

本 章 还 重点 介绍 了 PCI 桥 的 实现 机 制 。 在 许多 较 简 单 的 处 理 器 系统 中 ,并 不 包含 PCI 桥 ， 
但 是 读者 仍然 需要 深入 理解 PCI 桥 这 一 重要 概念 。 深 入 理解 PCI 桥 的 运行 机 制 ,是 理解 PCI 
体系 结构 的 重要 基础 。 
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第 3 癌 PCI 总 线 的 数据 交换 


PCI Agent 设备 之 间 以 及 HOST 处 理 器 和 PCI Agent 设备 之 间 可 以 使 用 存储 器 读 写 和 1/0 
读 写 等 总 线 事务 进行 数据 传送 。 在 大 多 数 情况 下 ，PCI 桥 不 直接 与 PCI 设备 或 者 HOST 主 桥 
进行 数据 交换 ， 而 仅 转发 来 自 PCI Agent 设备 或 者 HOST 主 桥 的 数据 。 

PCI Agent 设备 间 的 数据 交换 并 不 是 本 章 讨论 的 重点 。 本 章 更 侧重 讲述 PCI Agent 设备 使 用 
DMA 机 制 读 写 主 存储 器 的 数据 ， 以 及 HOST 处 理 器 如 何 访问 PCI 设备 的 BAR 空间 。 本 章 还 将 
使 用 一 定 的 篇 幅 讨论 在 PCI 总 线 中 与 Cache 相关 的 总 线 事务 ， 并 在 最 后 介绍 预 读 机 制 。 


3.1 PCI 设备 BAR 空间 的 初始 化 


在 PCI Agent 设备 进行 数据 传送 之 前 ， 系 统 软件 需要 初始 化 PCI Agent 设备 的 BARO ~5 
寄存 器 和 PCI 桥 的 Base 、Limit 寄存 器 。 系 统 软件 使 用 DFS 算法 对 PCI 总 线 进行 遍历 时 ， 完 
成 这 些 寄存 器 的 初始 化 ， 即 分 配 这 些 设备 在 PCI 总 线 域 的 地 址 空间 。 当 这 些 寄存 器 初始 化 完 
毕 后 ，PCI 设备 可 以 使 用 PCI 总 线 地 址 进行 数据 传递 。 

值得 注意 的 是 ，PCI Agent 设备 的 BARO ~5 寄存 器 和 PCI 桥 的 Base 寄存 器 保存 的 地 址 都 
是 PCI 总 线 地 址 。 而 这 些 地 址 在 处 理 器 系统 的 存储 器 域 中 具有 了 映像， 如 果 一 个 PCI 设备 的 
BAR 空间 在 存储 器 域 中 没有 映像 ， 处 理 器 将 不 能 访问 该 PCI 设备 的 BAR 空间 。 

如 上 文 所 述 ， 处 理 器 通过 HOST 主 桥 将 PCI 总 线 域 与 存储 器 域 隔离 。 当 处 理 器 访问 PCI 
设备 的 地 址 空间 时 ， 需 要 首先 访问 该 设备 在 存储 器 域 中 的 地 址 空间 ， 并 通过 HOST 主 桥 将 这 
个 存储 器 域 的 地 址 空间 转换 为 PCI 总 线 域 的 地 址 空间 之 后 ， 再 使 用 PCI 总 线 事务 将 数据 发 送 
到 指定 的 PCI 设备 中 。 

PCI 设备 访问 存储 器 域 的 地 址 空间 ， 即 进行 DMA 操作 时 ， 也 是 首先 访问 该 存储 器 地 址 

空间 所 对 应 的 PCI 总 线 地 址 空间 ， 之 后 通过 HOST 主 桥 将 这 个 PCI 总 线 地 址 空间 转换 为 存储 
器 地 址 空间 ， 再 由 DDR 控制 器 对 存储 器 进行 读 写 访问 。 

不 同 的 处 理 器 系统 采用 不 同 的 机 制 实现 存储 器 域 和 PCI 总 线 域 的 转换 。 如 PowerPC 处 理 
器 使 用 Outbound 寄存 器 组 实现 存储 器 域 到 PCI 总 线 域 间 的 转换 ， 并 使 用 Inbound 寄存 器 组 实 
现 PCI 总 线 域 到 存储 器 域 间 的 转换 。 

而 x86 处 理 器 没有 这 种 地 址 空间 域 的 转换 机 制 ， 因 此 从 PCI 设备 的 角度 来 看 ，PCI 设备 
可 以 直接 访问 存储 器 地 址 ; 从 处 理 器 的 角度 来 看 ， 处 理 器 可 以 直接 访问 PCI 总 线 地 址 空间 。 
但 是 读者 需要 注意 ， a A 
只 是 在 x86 处 理 器 的 HOST 主 桥 中 ， 存 储 器 域 的 存储 器 地 址 与 PCI 总 线 地 址 相等 ， 这 种 “ 
单 相等 ”也 是 一 种 映射 关系 。 


3.1.1 存储 器 地 址 与 PCI 总 线 地 址 的 转换 


下 面 根据 PowerPC 和 x86 处 理 器 的 主 桥 ， 抽 象 出 一 个 虚拟 的 HOST 主 桥 ， 并 以 此 为 例 讲 
述 PCI Agent 设备 之 间 以 及 PCI Agent 设备 与 主 存储 器 间 的 数据 传送 过 程 。 
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假设 在 一 个 32 位 处 理 器 中 ， 存 储 器 域 的 0xF000-0000 ~0xF7FF-FFFF ( 共 128MB) 这 段 
物理 地 址 空间 与 PCI 总 线 的 地 址 空间 存在 映射 关系 。 

当 处 理 器 访问 这 段 存储 器 地 址 空间 时 ，HOST 主 桥 会 认领 这 个 存储 器 访问 ， 并 将 该 存储 
器 访问 使 用 的 物理 地 址 空间 转换 为 PCI 总 线 地 址 空间 ， 并 与 0x7000- 0000 ~ 0x77FF-FFFF 这 
段 PCI 总 线 地 址 空间 对 应 。 

为 简化 起 见 ， 假 定 在 存储 器 域 中 只 映射 了 PCI 设备 的 存储 器 地 址 空间 ， 而 不 映射 PCI 设 
备 的 ZO 地址 空间 。 而 PCI 设备 的 BAR 空间 使 用 0x7000- 0000 ~0x77FF-FFFF 这 段 PCI 总 线 
域 的 存储 器 地 址 空间 。 

在 这 个 HOST 主 桥 中 ， 存 储 器 域 与 PCI 总 线 域 的 对 应 关系 如 图 3-1 所 示 。 


PCI 地 址 空间 
\ 


PCI 总 线 域 
OxFFFF-FFFF 


存储 器 域 
0xFFFF-FFFF 


OxF7FF-FFFF 
0xF000-0000 


0x8000-0000 
Ox7FFF-FFFF 


0x8000-0000 
0x7800-0000 
0x7000-0000 


0x0000-0000 0x0000-0000 


存储 器 地 址 空间 
图 3-1 存储 器 域 与 PCI 总 线 域 的 映射 关系 


当 PCI 设备 使 用 DMA 机 制 访问 存储 器 域 地 址 空间 时 ， 处 理 器 系统 同样 需要 将 存储 器 域 
的 地 址 空间 反 向 映射 到 PCI 总 线 地 址 空间 。 假 设 在 一 个 处 理 器 系统 中 ， 主 存储 器 大 小 为 
2 GB， 其 在 存储 器 域 的 地 址 范围 为 0x0000- 0000 ~ 0x7FFF-FFFF， 而 这 段 地 址 在 PCI 总 线 域 
中 对 应 的 “PCI 总 线 地 址 空间 ”为 0x8000- 0000 ~ OxFFFF-FFFF。 

PCI 设备 进行 DMA 操作 时 ， 必 须 使 用 0x8000- 0000 ~0xFFFF-FFFF 这 段 PCI 总 线 域 的 地 
址 ，HOST 主 桥 才 能 认领 这 个 PCI 总 线 事务 ， 并 将 这 个 总 线 事务 使 用 的 PCI 总 线 地 址 转换 为 
存储 器 地 址 ， 并 与 0x0000- 0000 ~0x7FFF-FFFF 这 段 存储 器 区 域 进行 数据 传递 。 

在 一 个 实际 的 处 理 器 系统 中 ， 很 少 有 系统 软件 采用 这 样 的 方法 ， 实 现存 储 器 域 与 PCI 总 
线 域 之 间 的 映射 , “简单 相等 ”还 是 最 常用 的 映射 方法 。 本 章 采用 图 3-1 的 映射 关系 ， 虽 然 
增加 了 映射 复杂 度 ， 却 便于 读者 深入 理解 存储 器 域 到 PCI 总 线 域 之 间 的 映射 关系 。 下 面 将 以 
这 种 映射 关系 为 例 ， 详 细 讲述 PCI 设备 BAR0 ~ 5 寄存 器 的 初始 化 。 


3.1.2 PCI 设备 BAR 寄存 器 和 了 PCI 桥 Base、Limit 寄存 器 的 初始 化 


PCI 桥 的 Base 、Limit 寄存 器 保存 “该 桥 所 管理 的 PCI 子 树 ” 的 存储 器 或 者 IO 空间 的 
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基地 址 和 长 度 。 值 得 注意 的 是 ，PCI 桥 也 是 PCI 总 线 上 的 一 个 设备 ， 在 其 配置 空间 中 也 有 
BAR 寄存 器 ， 本 节 不 对 PCI 桥 BAR 寄存 器 进行 说 明 ， 因 为 在 多 数 情 况 下 透明 桥 并 不 使 用 其 
内 部 的 BAR 寄存 器 。 下 面 以 图 3-2 所 示 的 处 理 器 系统 为 例 说 明 上 述 寄存 器 的 初始 化 过 程 ， 
该 处 理 器 系统 使 用 的 存储 器 域 与 PCI 总 线 域 的 映射 关系 如 图 3-1 所 示 。 
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BAR0=0x7200-0000 1 Memory Limit=0x200-0000 
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1 
BAR0O=0x7000-0000 BARO=0x7100-0000 
图 3-2 BAR 寄存 器 的 初始 化 


在 PCI 设备 的 BAR 寄存 器 中 ， 包 含 该 设备 使 用 的 PCI 总 线 域 的 地 址 范围 。 在 PCI 设备 
的 配置 空间 中 共有 6 个 BAR 寄存 器 ， 因 此 一 个 PCI 设备 最 多 可 以 使 用 6 组 32 位 的 PCI 总 线 
地 址 空间 , 或 者 3 组 64 位 的 PCI 总 线 地 址 空间 。 这 些 BAR 空间 可 以 保存 PCI 总 线 域 的 存储 
器 地 址 空间 或 者 IO 地 址 空间 ， 目 前 多 数 PCI 设备 仅 使 用 存储 器 地 址 空间 。 而 在 通常 情况 
下 ， 一 个 PCI 设备 使 用 2 到 3 个 BAR 寄存 器 就 足够 了 。 

为 简化 起 见 ， 首 先 假定 在 图 3-2 中 所 示 的 PCI 总 线 树 中 ， 所 有 PCI Agent 设备 只 使 用 了 
BAR0 寄存 器 ， 其 申请 的 数据 空间 大 小 为 16MB ( 即 0x1000000B) 而 且 不 可 预 读 ， 而 且 PCI 
桥 不 占用 PCI 总 线 地 址 空间 ， 即 PCI 桥 不 含有 BAR 空间 。 并 且 假 定 当 前 HOST 主 桥 已 经 完 
成 了 对 PCI 总 线 树 的 编号 。 

根据 以 上 假设 , 该 PCI 总 线 树 的 遍历 过 程 如 下 所 示 。 

(1) 系统 软件 根据 DFS 算法 ， 首 先 寻 找到 第 一 组 PCI 设备 ， 分 别 为 PCI 设备 31 和 PCI 
设备 32 ， 并 根据 这 两 个 PCI 设备 需要 的 PCI 空间 大 小 ， 从 PCI 总 线 地 址 空间 中 (0x7000- 


名 HOST 主 桥 下 的 第 一 个 桥 片 是 PCI 桥 片 1，PCI 桥 片 1 下 的 第 一 个 桥 片 是 PCI 桥 片 2， 而 PCI 桥 片 2 下 的 第 一 个 桥 
片 是 PCI 桥 片 3， 因 而 第 一 组 PCI 设备 为 PCI 总 线 3 下 的 PCI 设备 。 不 同 的 系统 软件 查找 第 一 组 PCI 设备 的 方法 不 同 ， 
Linux 认为 第 一 组 PCI 设备 为 PCI 总 线 0 下 的 PCI 设备 。 
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0000 ~0x77FF-FFFF) 为 这 两 个 PCI 设备 的 BARO 寄存 器 分 配 基 地 址 ， 分 别 为 0x7000- 0000 
和 0x7100- 0000。 

(2) 当 系 统 软件 完成 PCI 总 线 3 下 所 有 设备 的 BAR 空间 的 分 配 后 ， 将 初始 化 PCI 桥 3 
的 配置 空间 。 这 个 桥 片 的 Memory Base 寄存 器 保存 其 下 所 有 PCI 设备 使 用 的 “PCI 总 线 域 地 
址 空间 的 基地 址 ”， 而 Memory Limit 寄存 器 保存 其 下 PCI 设备 使 用 的 “PCI 总 线 域 地 址 空间 
的 大 小 ”。 系 统 软 件 将 Memory Base 寄存 吉 赋 值 为 0x7000- 0000， 而 将 Memory Limit 寄存 带 赋 
值 为 0x200- 0000。 

(3) 系统 软件 回溯 到 PCI 总 线 2， 并 找到 PCI 总 线 2 上 的 PCI 设备 21， 并 将 PCI 设备 21 
的 BARO 寄存 器 赋值 为 0x7200- 0000。 

(4) 完成 PCI 总 线 2 的 遍历 后 ， 系 统 软件 初始 化 PCI 桥 2 的 配置 寄存 器 ， 将 Memory 
Base 寄存 器 赋值 为 0x7000- 0000 ，Memory Limit 寄存 器 赋值 为 0x300- 0000。 

(5) 系统 软件 回溯 到 PCI 总 线 1， 并 找到 PCI 设备 11 ， 并 将 这 个 设备 的 BARO 寄存 器 赋 
值 为 0x7300- 0000。 并 将 PCI 桥 1 的 Memory Base 寄存 器 赋值 为 0x7000- 0000，Memory Limit 
寄存 器 赋值 为 0x400- 0000。 

(6) 系统 软件 回溯 到 PCI 总 线 0， 并 在 这 条 总 线 上 发 现 男 外 一 个 PCI 桥 ， 即 PCI 桥 4。 
并 使 用 DFS 算法 继续 遍历 PCI 桥 4。 首 先 系统 软件 将 遍历 PCI 总 线 4， 并 发 现 PCI 设备 41 和 
PCI 设备 42， 并 将 这 两 个 PCI 设备 的 BARO 寄存 器 分 别 赋值 为 0x7400- 0000 和 0x7500- 0000。 

(7) 系统 软件 初始 化 PCI 桥 4 的 配置 寄存 器 ， 将 Memory Base 寄存 器 赋值 为 0x7400- 
0000 ，Memory Limit 寄存 器 赋值 为 0x200- 0000。 系 统 软件 再 次 回 到 PCI 总 线 0， 这 一 次 系统 
软件 没有 发 现 新 的 PCI 桥 ， 于 是 将 初始 化 这 条 总 线 上 的 所 有 PCI 设备 。 

(8) PCI 总 线 0 上 只 有 一 个 PCI 设备， 即 PCI 设备 01 。 系 统 软件 将 这 个 设备 的 BARO 寄 
存 器 赋值 为 0x7600- 0000 ， 并 结束 整个 DFS 遍历 过 程 。 


3.2 PCI 设备 的 数据 传递 


PCI 设备 的 数据 传递 使 用 地 址 译 码 方式 ， 当 一 个 存储 器 读 写 总 线 事务 到 达 PCI 总 线 时 ， 
在 这 条 总 线 上 的 所 有 PCI 设备 将 进行 地 址 译 码 ， 如 果 当 前 总 线 事务 使 用 的 地 址 在 某 个 PCI 设 
备 的 BAR 空间 中 时 ,该 PCI 设备 将 使 能 DEVSEL# 信 号 ， 认 领 这 个 总 线 事务 。 

如 果 PCI 总 线 上 的 所 有 设备 都 不 能 通过 地 址 译 码 ， 认 领 这 个 总 线 事务 时 ， 这 条 总 线 的 
“ 负 向 译 码 ”设备 将 认领 这 个 总 线 事务 ， 如 果 在 这 条 PCI 总 线 上 没有 “人 负 向 译 码 ”设备 ,该 
总 线 事务 的 发 起 者 将 使 用 Master Abort 总 线 周 期 结束 当前 PCI 总 线 事务 。 


3.2.1 PCI 设备 的 正 向 译 码 与 负 向 译 码 


如 上 文 所 述 ，PCI 设备 使 用 “地 址 译 码 ”方式 接收 存储 器 读 写 总 线 请 求 。 在 PCI 总 线 中 
定义 了 两 种 “地 址 译 码 ”方式 ， 一 种 是 正 向 译 码 ， 另 一 种 是 负 向 译 码 。 

下 面 仍 以 图 3-2 所 示 的 处 理 器 系统 为 例 ， 说 明 数 据 传 送 使 用 的 寻 址 方法 。 当 HOST 主 桥 
通过 存储 器 或 者 LO 读 写 总 线 事务 访问 其 下 所 有 PCI 设备 时 ，PCI 总 线 0 下 的 所 有 PCI 设备 
都 将 对 出 现在 地 址 周期 中 的 PCI 总 线 地 址 进行 译 码 。 如 果 这 个 地 址 在 某 个 PCI 设备 的 BAR 
空间 中 命中 时 ， 这 个 PCI 设备 将 接收 这 个 PCI 总 线 请 求 。 这 个 过 程 也 被 称 为 PCI 总 线 的 正 向 
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译 码 ， 这 种 方式 也 是 大 多 数 PCI 设备 所 采用 的 译 码 方式 。 

但 是 在 PCI 总 线 上 的 某 些 设备 ， 如 PCI-to-(E)ISA 桥 并 不 使 用 正 向 译 码 接收 来 自 PCI 总 
线 的 请 求 ，PCI-to-ISA 桥 在 处 理 器 系统 中 的 位 置 如 图 1-1 所 示 。PCI 总 线 0 上 的 总 线 事务 在 
三 个 时 钟 周期 后 ， 没 有 得 到 任何 PCI 设备 响应 时 〈 即 总 线 请 求 的 PCI 总 线 地 址 不 在 这 些 设备 
的 BAR 空间 中 ) ，PCI-to-ISA 桥 将 被 动 地 接收 这 个 数据 请 求 。 这 个 过 程 被 称 为 PCI 总 线 的 负 
向 译 码 。 可 以 进行 负 向 译 码 的 设备 也 被 称 为 负 向 译 码 设 备 。 

在 PCI 总 线 中 ,除了 PCI-to-(E)ISA 桥 可 以 作为 负 向 译 码 设备 ，PCI 桥 也 可 以 作为 负 向 
译 码 设备 ， 但 是 PCI 桥 并 不 是 在 任何 时 候 都 可 以 作为 负 向 译 码 设备 。 在 绝 大 多 数 情况 下 ， 
PCI 桥 无 论 是 处 理 “ 来 自 上 游 总 线 ”， 还 是 处 理 “ 来 自 下 游 总 线 ” 的 总 线 事 务 时 ， 都 使 用 正 
向 译 码 方式 ， 但 是 在 某 些 特殊 应 用 中 ，PCI 桥 也 可 以 作为 负 向 译 码 设备 。 

笔记 本 在 连接 Dock 插座 时 ， 也 使 用 了 PCI 桥 。 因 为 在 大 多 数 情况 下 ， 笔 记 本 与 Dock 插 
座 是 分 离 使 用 的 ， 而 且 Dock 插座 上 连接 的 设备 多 为 慢 速 设备 ， 此 时 用 于 连接 Dock 插座 的 
PCI 桥 使 用 负 向 译 码 。Docek 插座 在 笔记 本 系统 中 的 位 置 如 图 3-3 所 示 。 


图 3-3 ”Dock 插座 与 笔记 本 的 连接 关系 


当 笔记 本 与 Dock 建立 连接 之 后 ， 如 果 处 理 器 需要 访问 Dock 中 的 外 部 设备 时 ，Dock 中 
的 PCI 桥 将 首先 使 用 负 向 译 码 方式 接收 PCI 总 线 事务 ， 之 后 将 这 个 PCI 总 线 事务 转发 到 
Dock 的 PCI 总 线 中 ， 再 访问 相应 的 PCI 设备 。 

在 Dock 中 使 用 负 向 译 码 PCI 桥 的 优点 是 ， 该 桥 管理 的 设备 并 不 参与 处 理 器 系统 对 PCI 
总 线 的 枚 举 过 程 。 当 笔记 本 插入 到 Dock 之 后 ， 系 统 软件 并 不 需要 重新 枚 举 Dock 中 的 设备 并 
为 这 些 设 备 分 配 系统 资源 ， 而 仅 需要 使 用 负 向 译 码 PCI 桥 管理 好 其 下 的 设备 即 可 ， 从 而 极 大 
降低 了 Dock 对 系统 软件 的 影响 。 

当 HOST 处 理 器 访问 Dock 中 的 设备 时 ， 负 向 译 码 PCI 桥 将 首先 接管 这 些 存 储 器 读 写 总 
线 事务 ， 然 后 发 送 到 Dock 设备 中 。 值 得 注意 的 是 ， 在 许多 笔记 本 的 Dock 实现 中 ， 并 没有 使 
用 负 向 译 码 PCI 桥 ， 而 使 用 PCI-to-ISA 桥 。 

PCI 总 线 规定 使 用 负 向 译 码 的 PCI 桥 ， 其 Base Class Code 寄存 器 为 0x06 ，Sub Class Code 
寄存 器 为 0x04 ， 而 Interface 寄存 器 为 0x01; 使 用 正 向 译 码 方式 的 PCI 桥 的 Interface 寄存 器 为 
0x00。 系 统 软件 (EPROM) 在 初始 化 Interface 寄存 器 时 务必 注意 这 个 细节 。 

综 上 所 述 ， 在 PCI 总 线 中 有 两 种 负 向 译 码 设备 ，PCI-to-E(ISA) 桥 和 PCI 桥 。 但 PCI 桥 并 非 在 
任何 时 候 都 是 负 向 译 码 设备 ， 只 有 PCI 桥 连接 Dock 插座 时 ，PCI 桥 的 Primary Bus 才 使 用 负 向 译 
码 方式 。 而 这 个 PCI 桥 的 Secondary Bus 在 接收 Dock 设备 的 请 求 时 仍然 使 用 正 向 译 码 方式 。 
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PCI 桥 使 用 的 正 向 译 码 方式 与 PCI 设备 使 用 的 正 向 译 码 方式 有 所 不 同 。 如 图 3-4 所 示 ， 
当 一 个 总 线 事务 是 从 PCI 桥 的 Primary Bus 到 Secondary Bus 时 ，PCI 桥 使 用 的 正 向 译 码 方式 
与 PCI 设备 使 用 的 方式 类 似 。 如 果 该 总 线 事务 使 用 的 地 址 在 PCI 桥 任 意 一 个 Memory Base 窗 
口 9 命 中 时 ,该 PCI 桥 将 使 用 正 向 译 码 方式 接收 该 总 线 事务 ， 并 根据 实际 情况 决定 是 否 将 这 
个 总 线 事务 转发 到 Secondary Bus。 


Primary Bus 


Memory Base 


Secondary Bus 
图 3-4 PCI 桥 使 用 的 正 向 译 码 方式 


当 一 个 总 线 事务 是 从 PCI 桥 的 Secondary Bus 到 Primary Bus 时 ， 如 果 该 总 线 事务 使 用 的 
地 址 没有 在 PCI 桥 所 有 的 Memory Base 窗口 命中 ， 表 明 当 前 总 线 事务 不 是 访问 该 PCI 桥 管理 
的 PCI 子 树 中 的 设备 ， 因 此 PCI 桥 将 接收 当前 总 线 事 务 ， 并 根据 实际 情况 决定 是 否 将 这 个 总 
线 事 务 转发 到 Primary Bus。 

以 图 3-2 为 例 ， 当 PCI 设备 11 访问 主 存储 器 空间 时 ， 首 先 将 存储 器 读 写 总 线 事务 发 送 
到 PCI 总 线 1 上 ， 而 这 个 存储 器 地 址 显然 不 会 在 PCI 总 线 1 的 任何 PCI 设备 的 BAR 空间 中 ， 
此 时 PCI 桥 1 将 认领 这 个 PCI 总 线 的 数据 请 求 ， 并 将 这 个 总 线 事务 转发 到 PCI 总 线 0 上 。 最 
后 HOST 主 桥 将 接收 这 个 总 线 事务 ， 并 将 PCI 总 线 地 址 转换 为 存储 器 域 的 地 址 ， 与 主 存储 器 
进行 读 写 操作 。 

值得 注意 的 是 ，PCI 总 线 并 没有 规定 HOST 主 桥 使 用 正 向 还 是 负 向 译 码 方式 接收 这 个 存 
储 器 读 写 总 线 事务 ， 但 是 绝 大 多 数 HOST 主 桥 使 用 正 向 译 码 方式 接收 来 自 下 游 的 存储 器 读 写 
总 线 事务 。 在 PowerPC 处 理 絮 中， 如 果 当 前 存储 器 读 写 总 线 事务 使 用 的 地 址 在 Inbound 窗口 
内 ，HOST 主 桥 将 接收 这 个 总 线 事务 ， 并 将 其 转换 为 存储 器 域 的 读 写 总 线 事 务 ， 与 主 存 储 顺 
进行 数据 交换 。 


3. 2.2 ”处 理 器 到 PCI 设备 的 数据 传送 


下 面 以 图 3-2 所 示 的 处 理 器 系统 为 例 ， 说 明 处 理 器 向 PCI 设备 11 进行 存储 器 写 的 数据 
传送 过 程 。 处 理 器 向 PCI 设备 进行 读 过 程 与 写 过 程 略 有 区 别 ， 因 为 存储 器 写 使 用 Posted 方 
式 ， 而 存储 器 读 使 用 Non-Posted 方式 ,但 是 存储 器 读 使 用 的 地 址 译 码 方式 与 存储 器 写 类 似 ， 
因此 本 节 对 处 理 器 向 PCI 设备 进行 存储 器 读 的 过 程 不 做 进一步 介绍 。 

PCI 设备 11 在 PCI 总 线 域 的 地 址 范围 是 0x7300- 0000 ~ 0x73FF-FFFF。 这 段 空间 在 存储 
器 域 中 对 应 的 地 址 范围 是 0xF300- 0000 ~0xF3FF-FFFF。 下 面 假设 处 理 器 使 用 存储 器 写 指 令 ， 
访问 0xF300- 0008 这 个 存储 器 地 址 ， 其 步骤 如 下 。 

(1) 存储 器 域 将 0xF300-0008 这 个 地 址 发 向 HOST 主 桥 ，0xF000-0000 ~ 0xF7FF-FFFF 这 


PCI 桥 除了 具有 Memory Base 窗口 外 ， 还 有 I/O Base 窗口 和 Prefetchable Memory Base 窗口 。 


71 


段 地 址 已 经 由 HOST 主 桥 映 射 到 PCI 总 线 域 地 址 空间 ， 所 以 HOST 主 桥 认 为 这 是 一 个 对 PCI 
设备 的 访问 。 因 此 HOST 主 桥 将 首先 接管 这 个 存储 器 写 请 求 。 

(2) HOST 主 桥 将 存储 器 域 的 地 址 0xF300- 0008 转换 为 PCI 总 线 域 的 地 址 0x7300- 0008 ， 
并 通过 总 线 仲 裁 获 得 PCI 总 线 0 的 使 用 权 ， 启 动 PCI 存储 器 写 周 期 ， 并 将 这 个 存储 器 写 总 线 
事务 发 送 到 PCI 总 线 0 上 。 值 得 注意 的 是 ， 这 个 存储 器 读 写 总 线 事务 使 用 的 地 址 为 0x7300- 
0008 ， 而 不 是 0xF300- 0008 。 

(3) PCI 总 线 0 的 PCI 桥 1 发现 0x7300- 0008 在 自己 管理 的 地 址 范围 内 ， 于 是 接管 这 个 
存储 器 写 请 求 ， 并 通过 总 线 仲裁 逻辑 获得 PCI 总 线 1 的 使 用 权 ， 并 将 这 个 请 求 转发 到 PCI 总 
线 1 上 。 

(4) PCI 总 线 1 的 PCI 设备 11 发 现 0x7300-0008 在 自己 的 BARO 寄存 器 中 命中 ， 于 是 接 
收 这 个 PCI 写 请 求 ， 并 完成 存储 器 写 总 线 事务 。 


3.2.3 PCI 设备 的 DMA 操作 


下 面 以 图 3-2 所 示 的 处 理 器 系统 为 例 ， 说 明 PCI 设备 11 向 存储 器 进行 DMA 写 的 数据 传 
送 过 程 。PCI 设备 的 DMA 写 使 用 Posted 方式 而 DMA 读 使 用 Non - Posted 方式 。 本 节 不 介绍 
PCI 设备 进行 DMA 读 的 过 程 ， 而 将 这 部 分 内 容留 给 读者 分 析 。 

假定 PCI 设备 11 需要 将 一 组 数据 发 送 到 0x1000- 0000 ~0x1000-FFFF 这 段 存 储 器 域 的 地 
址 空间 中 。 由 上 文 所 述 ， 存 储 器 域 的 0x0000- 0000 ~ 0x7FFF-FFFF 这 段 存 储 器 空间 与 PCI 总 
线 域 的 0x8000- 0000 ~0xFFFF-FFFF 这 段 PCI 总 线 地 址 空间 对 应 。 

PCI 设备 11 并 不 能 直接 操作 0x1000- 0000 ~ 0x1000-FFFF 这 段 存储 器 域 的 地 址 空间 ，PCI 
设备 11 需要 对 PCI 总 线 域 的 地 址 空间 0x9000- 0000 ~0x9000-FFFF 进行 写 操作 ， 因 为 PCI 总 
线 地 址 空间 0x9000- 0000 ~ 0x9000-FFFF 已 经 被 HOST 主 桥 映射 到 0x1000- 0000 ~ 0x1000- 
FFFF 这 段 存 储 器 域 。 这 个 DMA 写 具 体 的 操作 流程 如 下 。 

(1) 首先 PCI 设备 11 通过 总 线 仲裁 逻辑 获得 PCI 总 线 1 的 使 用 权 ， 之 后 将 存储 器 写 总 
线 事务 发 送 到 PCI 总 线 1 上 。 值 得 注意 的 是 ， 这 个 存储 器 写 总 线 事务 的 目的 地 址 是 PCI 总 线 
域 的 地 址 空间 0x9000- 0000 ~ 0x9000-FFFF， 这 个 地 址 是 主 存储 器 在 PCI 总 线 域 的 地 址 映像 。 

(2) PCI 总 线 1 上 的 设备 将 进行 地 址 译 码 ， 确 定 这 个 写 请 求 是 不 是 发 送 到 自己 的 BAR 空 
间 ， 在 PCI 总线 1 上 的 设备 除了 PCI 设备 11 之 外 ,还 有 PCI 桥 2 和 PCI 桥 1。 

(3) 首先 PCI 桥 1、2 和 PCI 设备 11 对 这 个 地 址 同时 进行 正 向 译 码 。PCI 桥 1 发 现 这 个 
PCI 地 址 并 不 在 自己 管理 的 PCI 总 线 地 址 范围 之 内 ， 因 为 PCI 桥 片 1 所 管理 的 PCI 总 线 地 址 
空间 为 0x7000- 0000 ~0x73FF-FFFF。 此 时 PCI 桥 1 将 接收 这 个 存储 器 写 总 线 事务 ， 因 为 PCI 
桥 1 所 管理 的 PCI 总 线 地 址 范围 并 不 包含 当前 存储 器 写 总 线 事务 的 地 址 ， 所 以 其 下 所 有 PCI 
设备 都 不 可 能 接收 这 个 存储 器 写 总 线 事务 。 

(4) PCI 桥 1 发现 自己 并 不 能 处 理 当 前 这 个 存储 器 写 总 线 事 务 ， 则 将 这 个 存储 器 写 总 线 
事务 转发 到 上 游 总 线 。PCI 桥 1 首先 通过 总 线 仲裁 逻辑 获得 PCI 总 线 0 的 使 用 权 后 ， 然 后 将 
这 个 总 线 事务 转发 到 PCI 总 线 0。 

(5) HOST 主 桥 发 现 0x9000- 0000 ~0x9000-FFFF 这 段 PCI 总 线 地 址 空间 与 存储 器 域 的 存 
储 器 地 址 空间 0x1000- 0000 ~0x1000-FFFF 对 应 ， 于 是 将 这 段 PCI 总 线 地 址 空间 转换 成 为 存 
储 器 域 的 存储 器 地 址 空间 ， 并 完成 对 这 有 段 存储 器 的 写 操作 。 
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(6) 存储 器 控制 器 将 从 HOST 主 桥接 收 数据 ， 并 将 其 写 入 到 主 存储 器 。 

PCI 设备 间 的 数据 传递 与 PCI 设备 到 存储 器 的 数据 传送 大 体 类 似 。 我 们 以 PCI 设备 11 
将 数据 传递 到 PCI 设备 和 2 为 例 说 明 这 个 转 弟 过程。 我 们 假定 PCI 设备 11 将 一 组 数据 发 送 到 
PCI 设备 42 的 PCI 总 线 地 址 0x7500- 0000 ~ 0x7500-FFFF 这 段 地 址 空间 中 。 这 个 过 程 与 PCI 
设备 11 将 数据 发 送 到 存储 器 的 第 1 ~5 步 基本 类 似 ， 只 是 第 5、6 步 不 同 。PCI 设备 11 将 数 
据 发 送 到 PCI 设备 42 的 第 5、6 步 如 下 所 示 。 

(5) PCI 总 线 0 发 现 其 下 的 设备 PCI 桥 4 能 够 处 理 来 自 PCI 总 线 0 的 数据 请 求 ， 则 PCI 
桥 4 将 接管 这 个 PCI 写 请 求 ， 并 通过 总 线 仲裁 逻辑 获得 PCI 总 线 4 的 使 用 权 ， 之 后 将 这 个 存 
储 絮 写 请 求 发 向 PCI 总 线 4。 此 时 HOST 主 桥 不 会 接收 当前 存储 器 写 总 线 事务 ， 因 为 0x7500- 
0000 ~0x7500-FFFF 这 段 地 址 空间 并 不 是 HOST 主 桥 管理 的 地 址 范围 。 

(6) PCI 总 线 4 的 PCI 设备 42 将 接收 这 个 存储 器 写 请 求 ， 并 完成 这 个 PCI 存储 器 写 请 求 

PCI 总 线 树 内 的 数据 传送 始终 都 在 PCI 总 线 域 中 进行 ， 不 存在 不 同 域 之 间 的 地 址 转换 ， 
因此 PCI 设备 11 向 PCI 设备 42 进行 数据 传递 时 ， 并 不 会 进行 PCI 总 线 地 址 空间 到 存储 器 地 
址 空间 的 转换 。 


3.2.4 PCI 桥 的 Combining、Merging 和 Collapsing 


由 上 所 述 ，PCI 设备 间 的 数据 传递 有 时 将 通过 PCI 桥 。 在 某 些 情况 下 ，PCI 桥 可 以 合并 
一 些 数据 传递 ， 以 提高 数据 传递 的 效率 。PCI 桥 可 以 采用 Combining、Merging 和 Collapsing 
三 种 方式 ， 优 化 数据 通过 PCI 桥 的 效率 。 

1. Combining 

PCI 桥 可 以 将 接收 到 的 多 个 存储 器 写 总 线 事务 合并 为 一 个 突 发 存储 器 写 总 线 事务 。PCI 
桥 进 行 这 种 Combining 操作 时 需要 注意 数据 传送 的 “顺序 ”。 当 PCI 桥接 收 到 一 组 物理 地 址 
连续 的 存储 器 写 访问 时 ， 如 对 PCI 设备 的 某 段 空间 的 DW1、2 和 4 进行 存储 器 写 访问 时 ， 
PCI 桥 可 以 将 这 组 访问 转化 为 一 个 对 DW1 ~4 的 突 发 存储 器 写 访问 ， 并 使 用 字 节 使 能 信号 
C/ABE[L3:0]# 进 行 控 制 ， 其 过 程 如 下 所 示 。 

PCI 桥 将 在 数据 周期 1 中 ， 置 CLBE[3:0]# 信 号 为 有 效 表示 传递 数据 DW1; 在 数据 周期 
2 中 ， 置 CZBE[3:0]# 信 号 为 有 效 表示 传递 数据 DW2; 在 数据 周期 3 中 ， 置 CALBE[3:0]# 信 
号 为 无 效 表示 在 这 个 周期 中 所 传递 的 数据 无 效 ， 从 而 跳 过 DW3 ;并 在 数据 周期 4 中 ， 置 C/ 
BE[3:0]# 信 号 为 有 效 表示 传递 数据 DW4。 

目标 设备 将 最 终 按照 发 送 端的 顺序 ， 接 收 DW1、DW2 和 DW4， 采 用 这 种 方法 在 不 改变 
传送 序 的 前 提 下 ， 提 高 了 数据 的 传送 效率 。 值 得 注意 的 是 ， 有 些 HOST 主 桥 也 提供 这 种 
Combining 方式 ， 合 并 多 次 数据 访问 。 如 果 目 标 设备 不 支持 突 发 传送 方式 ， 该 设备 可 以 使 用 
Disconnect 周期 ， 终 止 突 发 传送 ， 此 时 PCI 桥 /HOST 主 桥 可 以 使 用 多 个 存储 器 写 总 线 事务 分 
别传 送 DW1、DW2 和 DW4， 而 不 会 影响 数据 传送 。 

如 果 了 PCI 桥 收 到 “ 乱 序 ”的 存储 器 写 访 问 ， 如 对 PCI 设备 的 某 段 空间 的 DW4、3 和 1 进 
行 存储 器 写 访问 时 ，PCI 桥 不 能 将 这 组 访问 转化 为 一 个 对 DW1 ~4 的 突 发 存储 器 写 访问 ， 此 
时 PCI 桥 必须 使 用 三 个 存储 器 写 总 线 事 务 转发 这 些 存 储 器 写 访问 。 
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2. Merge 

PCI 桥 可 以 将 收 到 的 多 个 对 同一 个 DW 地 址 的 Byte、Word 进行 的 存储 器 写 总 线 事务 ， 
合并 为 一 个 对 这 个 DW 地 址 的 存储 器 写 总 线 事务 。PCI 规范 并 没有 要 求 这 些 对 Byte、Word 
进行 的 存储 器 写 在 一 个 DW 的 边界 之 内 ,但 是 建议 PCI 桥 仅 处 理 这 种 情况 。 本 节 也 仅 介 绍 在 
这 种 情况 下 ，PCI 桥 的 处 理 过 程 。 

PCI 规范 允许 PCI 桥 进行 Merge 操作 的 存储 器 区 域 必 须 是 可 预 读 的 ， 而 可 预 读 的 存储 器 
区 域 必须 支持 这 种 Merge 操作 。Merge 操作 可 以 不 考虑 访问 顺序 ， 可 以 将 对 Byte0 、Bytel 、 
Byte3 的 存储 器 访问 合并 为 一 个 DW， 也 可 以 将 对 Byte3 、Bytel 、Byte0 的 存储 器 访问 合并 为 一 
个 DW。 在 这 种 情况 下 ，PCI 总 线 事 务 仅 需 屏蔽 与 Byte2 相关 的 字 节 使 能 信号 C/ABE2# 即 可 。 

如 果 PCI 设备 对 Bytel 进行 存储 器 写 、 然 后 再 对 Bytel 、Byte2 、Byte3 进行 存储 器 写 时 ， 
PCI 桥 不 能 将 这 两 组 存储 器 写 合并 为 一 次 对 DW 进行 存储 器 写 操作 。 但 是 PCI 桥 可 以 合并 后 
一 组 存储 器 写 ， 即 首先 对 Bytel 进行 存储 器 写 ， 然 后 合并 后 一 组 存储 器 写 (Bytel 、Byte2 和 
Byte3 ) 为 一 个 DW 写 ， 并 屏蔽 相应 的 C/BE0# 信 和 号。Combining 与 Merge 操作 之 间 没 有 直接 
联系 ，PCI 桥 可 以 同时 支持 这 两 种 方式 ， 也 可 以 支持 任何 一 种 方式 。 

3. Collapsing 

Collapsing 指 PCI 桥 可 以 将 对 同一 个 地 址 进行 的 Byte、Word 和 DW 存储 带 写 总 线 事务 合 
并 为 一 个 存储 器 写 操 作 。 使 用 PCI 桥 的 Collapsing 方式 是 ， 具 有 某 些 条 件 限 制 ， 在 多 数 情 况 
下 ，PCI 桥 不 能 使 用 Collapsing 方式 合并 多 个 存储 器 写 总 线 事务 。 

当 PCI 桥 收 到 一 个 对 “DW 地 址 X” 的 Byte3 进行 的 存储 器 写 总 线 事务 ， 之 后 又 收 到 一 
个 对 “DW 地 址 X” 的 Byte 、Word 或 者 DW 存储 器 写 总 线 事务 ， 而 且 后 一 个 对 DW 地 址 X 
进行 的 存储 器 写 仍然 包含 Byte3 时 ， 如 果 PCI 桥 支 持 Collapsing 方式 ， 就 可 以 将 这 两 个 存储 
器 写 合 并 为 一 个 存储 器 写 。 

PCI 桥 在 绝 大 多 数 情况 下 不 能 支持 这 种 方式 ， 因 为 很 少 有 PCI 设备 支持 这 种 数据 合并 方 
式 。 通 常情 况 下 ， 对 PCI 设备 的 同一 地 址 的 两 次 写 操作 代表 不 同 的 含义 ， 因 此 PCI 桥 不 能 使 
用 Collapsing 方式 将 这 两 次 写 操作 合并 。PCI 规范 仅 是 提出 了 Collapsing 方式 的 概念 ， 几 乎 没 
有 PCI 桥 支持 这 种 数据 合并 方式 。 


3.3 与 Cache 相关 的 PCI 总 线 事务 


PCI 总 线 规范 定义 了 一 系列 与 Cache 相关 的 总 线 事务 ， 以 提高 PCI 设备 与 主 存储 器 进行 
数据 交换 的 效率 ， 即 DMA 读 写 的 效率 。 当 PCI 设备 使 用 DMA 方式 向 存储 器 进行 读 写 操作 
时 ， 一 定 需要 经 过 HOST 主 桥 ， 而 HOST 主 桥 通过 FSB 总 线 ? 向 存储 器 控制 器 进行 读 写 操作 
时 ， 需 要 进行 Cache 共享 一 致 性 操作 。 

PCI 设备 与 主 存储 器 进行 的 Cache 共享 一 致 性 增加 了 HOST 主 桥 的 设计 复杂 度 。 在 高 性 
能 处 理 器 中 Cache 状态 机 的 转换 模型 十 分 复杂 。 而 HOST 主 桥 是 FSB 上 的 一 个 设备 ， 需 要 按 
照 FSB 规定 的 协议 处 理 这 个 Cache 一 致 性 ， 而 多 级 Cache 的 一 致 性 和 状态 转换 模型 一 直 是 高 


G 在 许多 处 理 器 中 ，HOST 主 桥 与 FSB 之 间 还 存在 SoC 平台 总 线 。 
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性 能 处 理 器 设计 中 的 难点 。 

不 同 的 HOST 主 桥 处 理 PCI 设备 进行 的 DMA 操作 时 ， 使 用 的 Cache 一 致 性 的 方法 并 不 
相同 。 因 为 Cache 一 致 性 操作 不 仅 与 HOST 主 桥 的 设计 相关 ， 而 且 主 要 与 处 理 句 和 Cache 
Memory 系统 设计 密切 相关 。 

PowerPC 和 x86 处 理 器 可 以 对 PCI 设备 所 访问 的 存储 器 进行 设置 ， 其 设置 方法 并 不 相 
同 。 其 中 PowerPC 处 理 器 ， 如 MPC8548 处 理 絮 ， 可 以 使 用 Inbound 寄存 器 的 RIT 字段 和 
WTT 字段 ， 设 置 在 PCI 设备 进行 DMA 操作 时 ， 是 否 需 要 进行 Cache 一 致 性 操作 ， 是 否 可 以 
将 数据 直接 写 入 Cache 中 。RTT 字段 和 WTT 字段 的 详细 说 明 见 第 2.2.3 节 。 

而 x86 处 理 器 可 以 使 用 MTRR (Memory Type Range Registers) 设置 物理 存储 器 区 间 的 属 
性 是 否 为 可 Cache 空间 。 下 文 分 别 讨论 在 PowerPC 与 x86 处 理 器 中 ，PCI 设备 进行 DMA 写 操 
作 时 ， 如 何 进 行 Cache 一 致 性 操作 。 

但 是 与 PowerPC 处 理 器 相 比 ，x86 处 理 器 在 处 理 PCI 设备 的 Cache 一 致 性 上 略 有 不 足 ， 
特别 是 网 络 设备 与 存储 器 系统 进行 数据 交换 的 效率 。 因 为 x86 处 理 右 重点 优化 的 是 PCIe 设 
备 ， 目 前 x86 处 理 器 使 用 的 IOAT (1/O Acceleration Technology) 技术 ， 显 著 提 高 了 PCIe 设 
备 与 主 存储 器 进行 数据 通信 的 效率 。 


3. 3. 1 “Cache 一 致 性 的 基本 概念 


PCI 设备 对 可 Cache 的 存储 器 空间 进行 DMA 读 写 操作 的 过 程 较为 复杂 ， 有 关 Cache 
Memory 的 话题 可 以 独立 成 书 。 而 不 同 的 处 理 需 系统 使 用 的 Cache Memory 的 层次 结构 和 访问 
机 制 有 较 大 的 差异 ， 这 部 分 内 容 也 是 现代 处 理 吉 系统 设计 的 重 中 之 重 。 

本 节 仅 介绍 在 Cache Memory 系统 中 与 PCI 设备 进行 DMA 操作 相关 的 一 些 最 为 基础 的 概 
念 。 在 多 数 处 理 器 系统 中 ， 使 用 了 以 下 概念 描述 Cache 一 致 性 的 实现 过 程 。 

1.Cache 一 致 性 协议 

多 数 SMP 处 理 器 系统 使 用 了 MESI 协议 处 理 多 个 处 理 器 之 间 的 Cache 一 致 性 。 该 协议 也 
称 为 llinois protocol， 在 SMP 处 理 需 系统 中 得 到 了 广泛 的 应 用 。MESI 协议 使 用 四 个 状态 位 
描述 每 一 个 Cache 行 。 

e M (Modified) 位 。M 位 为 1 时 表示 当前 Cache 行 中 包含 的 数据 与 存储 器 中 的 数据 不 
一 致 ， 而 且 它 仅 在 本 CPU 的 Cache 中 有 效 ， 不 在 其 他 CPU 的 Cache 中 存在 副本 ,在 
这 个 Cache 行 的 数据 是 当前 处 理 器 系统 中 最 新 的 数据 副本 。 当 CPU 对 这 个 Cache 行进 
行 蔡 换 操作 时 ， 必 然 会 引发 系统 总 线 的 写 周 期 ， 将 Cache 行 中 数据 与 内 存 中 的 数据 
同步 。 

EE (Exclusive) 位 。E 位 为 1 时 表示 当前 Cache 行 中 包含 的 数据 有 效 ， 而 且 该 数 
据 仅 在 当前 CPU 的 Cache 中 有 效 ， 而 不 在 其 他 CPU 的 Cache 中 存在 副本 。 在 该 
Cache 行 中 的 数据 是 当前 处 理 需 系统 中 最 新 的 数据 副本 ， 而 且 与 存储 器 中 的 数据 
一 致 。 

S (Shared) 位 。S 位 为 1 表示 Cache 行 中 包含 的 数据 有 效 ， 而 且 在 当前 CPU 和 至 少 
其 他 一 个 CPU 中 具有 副本 。 在 该 Cache 行 中 的 数据 是 当前 处 理 器 系统 中 最 新 的 数据 
副本 ， 而 且 与 存储 器 中 的 数据 一 致 。 
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eT (Invalid) 位 。I 位 为 1 表示 当前 Cache 行 中 没有 有 效 数 据 或 者 该 Cache 行 没 有 使 能 。 
MESI 协议 在 进行 Cache 行 奉 换 时 ， 将 优先 使 用 I 位 为 1 的 Cache 行 。 
MESI 协议 还 存在 一 些 变种 ， 如 MOESI 协议 和 MESIF 协议 。 基 于 MOESI 协议 的 Cache 
一 致 性 模型 如 图 3-5 所 示 。AMD 处 理 器 就 使 用 MOESI 协议 。 不 同 的 处 理 器 在 实现 MOESI 协 
议 时 ， 状 态 机 的 转换 原理 类 似 ， 但 是 在 处 理 上 仍 有 较 大 的 区 别 。 


Read Hit 
Write Hit 


Read Hit 
Probe Read Hit 
Read Hit 
Probe Read Hit 


图 3-5 基于 MOESI 协议 的 Cache 一 致 性 模型 


MOESI 协议 引入 了 一 个 0 (Owned) 状态 ,并 在 MESI 协议 的 基础 上 ， 重 新 定义 了 S 状 
， 而 EE、M 和 工 状态 和 MESI 协议 的 对 应 状态 相同 。 

e 0 位 。0 位 为 1 表示 在 当前 Cache 行 中 包含 的 数据 是 当前 处 理 器 系统 最 新 的 数据 副 

本 ， 而 且 在 其 他 CPU 中 一 定 具 有 该 Cache 行 的 副本 ， 其 他 CPU 的 Cache 行 状态 为 S。 

如 果 主 存储 器 的 数据 在 多 个 CPU 的 Cache 中 都 具有 副本 时 ， 有 且 仅 有 一 个 CPU 的 

Cache 行 状态 为 0， 其 他 CPU 的 Cache 行 状态 只 能 为 S。 与 MESI 协议 中 的 $ 状态 不 

同 ， 状 态 为 0 的 Cache 行 中 的 数据 与 存储 需 中 的 数据 并 不 一 致 。 

eS 位。 在 MOESI 协议 中 ，S 状态 的 定义 发 生 了 细微 的 变化 。 当 一 个 Cache 行 状态 为 S 

时 ， 其 包含 的 数据 并 不 一 定 与 存储 器 一 致 。 如 果 在 其 他 CPU 的 Cache 中 不 存在 状态 

为 0 的 副本 时 ， 该 Cache 行 中 的 数据 与 存储 带 一 到， 如 果 在 其 他 CPU 的 Cache 中 存 

在 状态 为 0 的 副本 时 ，Cache 行 中 的 数据 与 存储 器 不 一 致 。 

在 一 个 处 理 器 系统 中 ， 主 设备 ( CPU 或 者 外 部 设备 ) 进行 存储 器 访问 时 ， 将 试图 从 存 
储 絮 系统 ( 主 存 储 右 或 者 其 他 CPU 的 Cache) 中 获得 最 新 的 数据 副本 。 如 果 该 主 设备 访问 
的 数据 没有 在 本 地 命中 时 ,将 从 其 他 CPU 的 Cache 中 获取 数据 ， 如 果 这 些 数据 仍然 没有 在 
其 他 CPU 的 Cache 中 命中 ， 主 存储 器 将 提供 数据 。 外 设 设备 进行 存储 器 访问 时 ， 也 需要 进 
行 Cache 共享 一 致 性 。 

在 MOESI 模型 中 , “Probe Read” 表示 主 设备 从 其 他 CPU 中 获取 数据 副本 的 目的 是 为 了 
读 取 数据 ; 而 “Probe Write” 表 示 主 设备 从 其 他 CPU 中 获取 数据 副本 的 目的 是 为 了 写 入 数 
据 ;“Read Hit” 和 “Write Hit” 表 示 主 设备 在 本 地 Cache 中 获得 数据 副本 ; “Read Miss” 和 
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“Write Miss” 表 示 主 设备 没有 在 本 地 Cache 中 获得 数据 副本 ; “Probe Read Hit” 和 “Probe 
Write Hit” 表 示 主 设备 在 其 他 CPU 的 Cache 中 获得 数据 副本 。 

本 节 为 简便 起 见 ， 仅 介绍 CPU 进行 存储 器 写 和 与 0 状态 相关 的 Cache 行 状态 迁移 ， 
CPU 进行 存储 器 读 的 情况 相对 较为 简单 ， 请 读者 自行 分 析 这 个 过 程 。 

当 CPU 对 一 段 存储 器 进行 写 操作 时 ， 如 果 这 些 数 据 在 本 地 Cache 中 命中 时 ， 其 状态 可 
能 为 E、S、M 或 者 0。 

e 状态 为 EE 或 者 M 时 ， 数据 将 直接 写 入 到 Cache 中 ， 并 将 状态 改 为 M。 

e 状态 为 S 时 ， 数 据 将 直接 写 和 人 到 Cache 中 ， 并 将 状态 改 为 M， 同 时 其 他 CPU 保存 该 数 

据 副 本 的 Cache 行 状 态 将 从 S 或 者 0 迁移 到 I (Probe Write Hit) 。 

e 状态 为 0 时 ， 数 据 将 直接 写 入 到 Cache 中 ， 并 将 状态 改 为 M， 同 时 其 他 CPU 保存 该 
数据 副本 的 Cache 行 状 态 将 从 $ 迁移 到 工 (Probe Write Hit)。 

当 CPU A 对 一 段 存储 器 进行 写 操作 时 ， 如 果 这 些 数据 没有 在 本 地 Cache 中 命中 时 ， 而 
在 其 他 CPU， 如 CPU B 的 Cache 中 命中 时 ， 其 状态 可 能 为 E、S、M 或 者 0。 其 中 CPU A 使 
用 CPU B 在 同一 个 Cache 共享 域 中 。 

e Cache 行 状态 为 E 时 ，CPU B 将 该 Cache 行 状态 改 为 I; 而 CPU A 将 从 本 地 申请 一 个 

新 的 Cache 行 ， 将 数据 写 人 ， 并 该 Cache 行 状态 更 新 为 M。 

e Cache 行 状态 为 S 时 ，CPU B 将 该 Cache 行 状态 改 为 1， 而 且 具 有 同样 副本 的 其 他 CPU 
的 Cache 行 也 需要 将 状态 改 为 TI; 而 CPU A 将 从 本 地 申请 一 个 Cache 行 ， 将 数据 写 人 ， 
并 该 Cache 行 状 态 更 新 为 M。 

e Cache 行 状 态 为 M 时 ，CPU B 将 原 Cache 行 中 的 数据 回 写 到 主 存储 器 ， 并 将 该 Cache 
行 状态 改 为 I; 而 CPU A 将 从 本 地 申请 一 个 Cache 行 ， 将 数据 写 信 ， 并 该 Cache 行 状 
态 更 新 为 M。 

e Cache 行 状 态 为 0 时 ，CPU B 将 原 Cache 行 中 的 数据 回 写 到 主 存储 需 ， 并 将 该 Cache 
行 状态 改 为 1， 具 有 同样 数据 副本 的 其 他 CPU 的 Cache 行 也 需要 将 状态 从 S 更 改 为 I; 
CPU A 将 从 本 地 申请 一 个 Cache 行 ， 将 数据 写 人 ， 并 该 Cache 行 状态 更 新 为 M。 

Cache 行 状态 可 以 从 M 迁移 到 0。 例 如 当 CPU A 读 取 的 数据 从 CPU B 中 命中 时 ， 如 果 

在 CPU B 中 Cache 行 的 状态 为 M 时 ,将 迁移 到 0O， 同 时 CPU B 将 数据 传送 给 CPU A 新 申请 
的 Cache 行 中 ， 而 且 CPU A 的 Cache 行 状 态 将 被 更 改 为 S。 

当 CPU 读 取 的 数据 在 本 地 Cache 中 命中 ， 而 且 Cache 行 状 态 为 0 时 ， 数 据 将 从 本 地 
Cache 获得 ， 并 不 会 改变 Cache 行 状 态 。 如 果 CPU A 读 取 的 数据 在 其 他 Cache 中 命中 ， 如 在 
CPU B 的 Cache 中 命 $ 中 而 且 其 状态 为 0 时 ， CPU B 将 该 Cache 行 状 态 保持 为 0， 同 时 CPU B 
将 数据 传送 给 CPU A 新 申请 的 Cache 行 中 ， 而 且 CPU A 的 Cache 行 状态 将 被 更 改 为 S。 

在 某 些 应 用 场合 ， 使 用 MOESI 协议 将 极 大 提高 Cache 的 利用 率 ， 因 为 该 协议 引入 了 0 
状态 ， 从 而 在 发 送 Read Hit 的 情况 时 ， 不 必 将 状态 为 M 的 Cache 回 写 到 主 存储 器 ， 而 是 直 
接 从 一 个 CPU 的 Cache 将 数据 传递 弟 到 另外 一 个 CPU。 目 前 MOESI 协议 在 AMD 和 RMI 公司 
的 处 理 器 中 得 到 了 广泛 的 应 用 。 

Intel 提出 了 另外 一 种 MESI 协议 的 变种 ， 即 MESIF 协议 ， 该 协议 与 MOESI 协议 有 较 大 
的 不 同 ， 也 远 比 MOESI 协议 复杂 ， 该 协议 由 Intel 的 QPI (QuickPath Interconnect) 技术 引 
人， 其 主要 目的 是 解决 “基于 点 到 点 的 全 互 连 处 理 器 系统 ”的 Cache 共享 一 致 性 问题 ， 而 
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不 是 “基于 共享 总 线 的 处 理 需 系统 ”的 Cache 共享 一 致 性 问题 。 

在 基于 点 到 点 互 连 的 NUMA (Non-Uniform Memory Architecture) 处 理 需 系统 中 ， 包 含 多 
个 子 处 理 器 系统 ， 这 些 子 处 理 器 系统 由 多 个 CPU 组 成 。 如 果 这 个 处 理 器 系统 需要 进行 全 机 
Cache 共享 一 致 性 ， 该 处 理 器 系统 也 被 称 为 ccNUMA (Cache Cohenrent NUMA ) 处 理 器 系统 。 
MESIF 协议 主要 解决 ccNUMA 处 理 器 结构 的 Cache 共享 一 致 性 问题 ， 这 种 结构 通常 使 用 目录 
表 ， 而 不 使 用 总 线 监 听 处 理 Cache 的 共享 一 致 性 。 

MESIF 协议 引入 了 一 个 F (Forward) 状态 。 在 ccNUMA 处 理 器 系统 中 ， 可 能 在 多 个 处 
理 器 的 Cache 中 存在 相同 的 数据 副本 ， 在 这 些 数据 副本 中 ， 只 有 一 个 Cache 行 的 状态 为 F， 
其 他 Cache 行 的 状态 都 为 S。Cache 行 的 状态 位 为 Ff 时，Cache 中 的 数据 与 存储 右 一 致 。 

当 一 个 数据 请 求 方 读 取 这 个 数据 副本 时 ， 只 有 状态 为 了 的 Cache 行 ， 可 以 将 数据 副本 转 
发 给 数据 请 求 方 ， 而 状态 位 为 $ 的 Cache 不 能 转发 数据 副本 。 从 而 MESIF 协议 有 效 解决 了 
在 ccNUMA 处 理 器 结构 中 ， 所 有 状态 位 为 S$ 的 Cache 同时 转发 数据 副本 给 数据 请 求 方 ， 而 造 
成 的 数据 拥塞 。 

在 ccNUMA 处 理 器 系统 中 ， 如 果 状 态 位 为 了 的 数据 副本 ， 被 其 他 CPU 复制 时 ，F 状态 
位 将 会 被 迁移 ， 新 建 的 数据 副本 的 状态 位 将 为 F， 而 老 的 数据 副本 的 状态 位 将 改变 为 S$。 当 
状态 位 为 的 Cache 行 被 改写 后 ，ccNUMA 处 理 絮 系统 需要 首先 Invalidate 状态 位 为 $ 其 他 
的 Cache 行 ， 之 后 将 Cache 行 的 状态 更 新 为 M。 

独立 地 研究 MESIF 协议 并 没有 太 大 意义 ， 该 协议 由 Boxboro-EX 处 理 器 系统 2 引入 ， 目 
前 Intel 并 没有 公开 Boxboro-EX 处 理 器 系统 的 详细 设计 文档 。MESIF 协议 仅 是 解决 该 处 理 器 
系统 中 Cache 一 致 性 的 一 个 功能 ， 该 功能 的 详细 实现 与 QPI 的 Protocal Layer 相关 ，QPI 由 多 
个 层次 组 成 ， 而 Protocal Layer 是 QPI 的 最 高 层 。 

对 MESIF 协议 QPI 互 连 技 术 有 兴趣 的 读者 ， 可 以 在 深入 理解 “基于 目录 表 的 Cache 一 
致 性 协议 ”的 基础 上 上， 阅读 Robert A，Maddox，Gurbir Singh and Robert J，Safranek 合 著 的 书 
籍 “Weaving High Performance Multiprocessor Fabric” 以 了 解 该 协议 的 实现 过 程 和 与 QPI 互 连 
技术 相关 的 背景 知识 。 

值得 注意 的 是 ，MESIF 协议 解决 主要 的 问题 是 ccNUMA 架构 中 SMP 子 系统 与 SMP 子 系 
统 之 间 Cache 一 致 性 。 而 在 SMP 人 处理 恬 系统 中 ,依然 需要 使 用 传统 的 MESI 协议 。Nehalem 
EX 处 理 器 也 可 以 使 用 MOESI 协议 进一步 优化 SMP 系统 使 用 的 Cache 一 致 性 协议 , 但 是 并 没 
有 使 用 该 协议 。 

为 简化 起 见 ， 本 章 假设 处 理 器 系统 使 用 MESI 协议 进行 Cache 共享 一 致 性 ， 而 不 是 
MOESI 协议 或 者 MESIF 协议 。 

2. HIT# 和 和 HITM# 信 号 

在 SMP 处 理 器 系统 中 ， 每 一 个 CPU 都 使 用 HIT# 和 HITM# 信 号 反映 HOST 主 桥 访问 的 地 
址 是 否 在 各 自 的 Cache 中 命中 。 当 HOST 主 桥 访 问 存储 器 时 ，CPU 将 驱动 HTM# 和 HIT# 信 
号 ， 其 描述 如 表 3-1 所 示 。 


”Boxboro-EX 处 理 器 系统 由 多 个 Nehalem EX 处 理 器 组 成 ， 而 Nehalem EX 处 理 器 由 两 个 SMP 处 理 器 系统 组 成 ， 一 
个 SMP 处 理 器 系统 由 4 个 CPU 组 成 ， 而 每 一 个 CPU 具有 2 个 线程 。 其 中 SMP 处 理 器 系统 之 间 使 用 QPI 进行 连接 ， 而 在 
一 个 SMP 处 理 器 内 部 的 各 个 CPU 仍然 使 用 FSB 连接 。 
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表 3-1 HITM# 和 HIT# 信 号 的 含义 


HITM# HIT# 描 述 

1 1 表示 HOST 主 桥 访问 的 地 址 没有 在 CPU 的 Cache 中 命中 

有 表示 HOST 主 桥 访问 的 地 址 在 CPU 的 Cache 中 命中 ， 而 且 Cache 的 状态 为 S$ (Shared) 或 
者 (Exclusive) ， 即 Cache 中 的 数据 与 存储 器 的 数据 一 致 

1 表示 HOST 主 桥 访问 的 地 址 在 CPU 的 Cache 中 命中 ， 而 且 Cache 的 状态 为 M (Modified ) ， 
即 Cache 中 的 数据 与 存储 器 的 数据 不 一 致 ， 在 Cache 中 保存 最 新 的 数据 副本 

MESI 协议 规定 这 种 情况 不 允许 出 现 , 但 是 在 有 些 处 理 器 系统 中 仍然 使 用 了 这 种 状态 ， 
表示 暂时 没有 获得 是 否 在 Cache 中 命中 的 信息 ， 需 要 等 待 几 拍 后 重 试 


HIT# 和 HITM# 信 号 是 FSB 中 非常 重要 的 两 个 信号 ， 各 个 CPU 的 HIT# 和 HITM# 信 号 通过 
“ 线 与 ”方式 直接 相连 。 而 在 一 个 实际 FSB 中 ， 还 包括 许多 信号 ， 本 节 并 不 会 详细 介绍 这 
些 信 号 。 

3. Cache 一 致 性 协议 中 使 用 的 Agent 

在 处 理 屁 系统 中 ， 与 Cache 一 致 性 相关 的 Agent 如 下 所 示 。 

e Request Agent。FSB 总 线 事务 的 发 起 设备 。 在 本 节 中 ，Request Agent 特 指 HOST 主 桥 。 
实际 上 在 FSB 总 线 上 的 其 他 设备 也 可 以 成 为 Request Agent， 但 这 些 Request Agent 并 
不 是 本 节 的 研究 重点 。Request Agent 需要 进行 总 线 仲裁 后 ， 才 能 使 用 FSB， 在 多 数 处 
理 需 的 FSB 中 ， 需 要 对 地 址 总 线 与 数据 总 线 分 别 进行 仲裁 。 

Snoop Agents。FSB 总 线 事务 的 监听 设备 。Snoop Agents 为 CPU， 在 一 个 SMP 处 理 右 系 
统 中 ， 有 多 个 CPU 共享 同一 个 FSB， 此 时 这 些 CPU 都 是 这 条 FSB 上 的 Snoop Agents。 
Snoop Agents 监听 FSB 上 的 存储 器 读 写 事务 ， 并 判断 这 些 总 线 事务 访问 的 地 址 是 否 在 
Cache 中 命中 。Snoop Agents 通过 HIT# 和 HITM# 信 号 向 FSB 通知 Cache 命中 的 结 

在 某 些 情况 下 ，Snoop Agents 需要 将 Cache 中 的 数据 回 写 到 存储 器 ， 同 时 为 Request 
Agent 提供 数据 。 

Response Agent。 FSB 总 线 事 务 的 目标 设备 。 在 本 节 中 ， Response Agent 特 指 存储 器 控 
制 器 。Response Agent 根据 Snoop Agents 提供 的 监听 结果 ， 决 定 如 何 接收 数据 或 者 向 
Request Agent 设备 提供 数据 。 在 多 数 情 况 下 ， 当 前 数据 访问 没有 在 Snoop Agents 中 命 
中 时 ，Response Agent 需要 提供 数据 ， 此 外 Snoop Agents 有 时 需要 将 数据 回 写 到 Re- 
sponse Agent 中 。 

4. FSB 的 总 线 事务 

一 个 FSB 的 总 线 事 务 由 多 个 阶段 组 成 ， 包 括 Request Phase 、Snoop Phase、Response 
Phase 和 Data Phase。 目 前 在 多 数 高 端 处 理 器 中 ，FSB 文 持 流水 操作 ， 即 在 同一 个 时 间 段 内 ， 
不 同 的 阶段 可 以 重奏 ， 如 图 3-6 所 示 。 

在 一 个 实际 的 FSB 中 ， 一 个 总 线 事务 还 可 能 包含 Arbitration Phase 和 Error Phase。 而 本 
节 仅 讲述 图 3-6 中 所 示 的 4 个 基本 阶段 。 

e Request Phase。Request Agent 在 获得 FSB 的 地 址 总 线 的 使 用 权 后 ， 在 该 阶段 将 访问 数 

据 区 域 的 地 址 和 总 线 事务 类 型 发 送 到 FSB 上 。 


、 


过 


© HIT# 和 HITM# 信 号 是 Open Drain ( 开 漏 ) 信 号，Open Drain 信号 可 以 直接 相连 ， 而 不 用 使 用 逮 辑 门 。 
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Request Phase | Snoop Phase |Response Phase 
Request Phase | Snoop Phase | Response Phase 
Request Phase | Snoop Phase |Response Phase 


图 3-6 FSB 的 流水 操作 


e Snoop Phase。Snoop Agents 根据 访问 数据 区 域 在 Cache 中 的 命中 情况 ,使 用 HIT# 和 
HITM# 信 号 ， 向 其 他 Agents 通知 Cache 一 致 性 的 结果 。 有 时 Snoop Agent 需要 将 数据 
回 写 到 存储 器 。 

e Reponse Phase。Response Agent 根据 Request 和 Snoop Phase 提供 的 信号 ， 可 以 要 求 Re- 
quest Agent 重 试 (Retry) ， 或 者 Response Agent 延 时 人 处理 (Defer) 当前 总 线 事务 。 在 
FSB 总 线 事务 的 各 个 阶段 中 ， 该 步骤 的 处 理 过 程 最 为 复杂 。 本 章 将 在 下 文 结合 PCI 设 
备 的 DMA 读 写 执行 过 程 ， 说 明 该 阶段 的 实现 原理 。 

e Data Phase。 一 些 不 传递 数据 的 FSB 总 线 事务 不 包含 该 阶段 。 该 阶段 用 来 进行 数据 传 
递 ， 包 括 Request Agent 向 Response Agent 写 入 数据 ; Response Agent 为 Request Agent 
提供 数据 ， 和 Snoop Agent 将 数据 回 写 到 Response Agent。 

下 面 将 使 用 本 小 节 中 的 概念 ， 描 述 在 PCI 总 线 中 ， 与 Cache 相关 的 总 线 事务 ， 并 讲述 相 

关 的 FSB 的 操作 流程 。 


3.3.2 PCI 设备 对 不 可 Cache 的 存储 器 空间 进行 DMA 读 写 


在 x86 处 理 器 和 PowerPC 处 理 器 中 ，PCI 设备 对 “不 可 Cache 的 存储 器 空间 ”进行 DMA 
读 写 的 过 程 并 不 相同 。 其 中 PowerPC 处 理 器 对 “不 可 Cache 的 存储 器 空间 ”进行 DMA 读 写 
进行 了 专门 的 处 理 ， 而 x86 处 理 器 在 对 这 类 空间 操作 时 ， 效 率 相 对 较 低 。 

1，x86 处 理 器 

x86 处 理 需 使 用 MTRR (Memory Type Range Register) 寄存 需 设 置 存储 器 空间 的 属性 ， 
如 果 存 储 器 空间 为 “可 Cache 空间 ”，x86 处 理 器 还 可 以 进一步 设置 这 段 空 间 为 “Write 
Through” “Write Combining” “Write Protect” 和 “Write Back”。 但 是 这 些 设置 与 PCI 设备 
进行 DMA 操作 时 ， 是 否 进 行 Cache 一 致 性 操作 并 没有 直接 关系 。 

在 x86 处 理 器 系统 中 ， 一 个 PCI 设备 进行 DMA 写 操 作 ， 可 以 将 数据 从 PCI 设备 写 人 到 
主 存储 右 中 。 这 个 数据 首先 需要 通过 HOST 主 桥 ， 然 后 经 过 FSB 发 送 到 存储 器 控制 器 。 虽 然 
在 x86 处 理 器 系统 中 ，CPU 知道 这 个 存储 器 区 域 是 否 为 “可 Cache 的 ”， 但 是 HOST 主 桥 并 
不 知道 PCI 设备 访问 的 存储 器 地 址 是 否 为 “可 Cache 的 ”， 因 此 都 需要 使 用 “Cache 一 致 ” 
的 FSB 总 线 传送 事务 2 进行 存储 器 写 操作 ， 从 而 数据 在 发 向 FSB 时 ，CPU 必须 要 进行 总 线 监 
听 ， 通 知 FSB 总 线 这 段 空 间 是 “不 可 Cache 的 ”。 

在 x86 处 理 器 中 ，PCI 设备 向 不 可 Cache 的 存储 器 空间 进行 读 操 作 时 ，CPU 也 必须 进行 


”FSB 总 线 定 义 了 许多 总 线 事务 ， 有 的 FSB 总 线 提供 了 一 个 Snoop 信号 ， 该 信号 为 1 时 表示 当前 FSB 的 总 线 事 务 需 
要 进行 Cache 共享 一 致 性 ， 为 0 时 不 需要 进行 Cache 共享 一 致 性 。 
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Cache 共享 一 致 性 操作 ， 而 这 种 没有 必要 的 Cache 共享 一 致 性 操作 将 影响 PCI 总 线 的 传送 效 
率 。 当 PCI 设备 所 访问 的 存储 器 空间 没有 在 CPU 的 Cache 命中 时 ，CPU 会 通知 FSB ， 数 据 没 
有 在 Cache 中 命中 ， 此 时 PCI 设备 访问 的 数据 将 从 存储 器 中 直接 读 出 。 

x86 处 理 需 在 前 端 总 线 上 进行 Cache 共享 一 致 性 操作 时 ， 需 要 使 用 Snoop Phase， 如 果 
PCI 设备 能 事先 得 知 所 访问 的 存储 器 是 “不 可 Cache 的 ”， 就 不 必 在 前 端 总 线 上 进行 Cache 
共享 一 致 性 操作 ， 即 FSB 总 线 事务 不 必 包 含 Snoop Phase， 从 而 可 以 提高 前 端 总 线 的 使 用 效 
率 。 但 是 x86 处 理 右 并 不 支持 这 种 方式 。 

在 x86 处 理 器 系统 中 ， 无 论 PCI 设备 访问 的 存储 器 空间 是 否 为 “不 可 Cache 的 ”， 都 需 
要 进行 Cache 共享 一 致 性 操作 。 这 也 是 PCI 总 线 在 x86 处 理 器 使 用 中 的 一 个 问题 。 而 PCIe 
总 线 通过 在 数据 报 文中 设置 “Snooping” 位 解决 了 这 个 问题 ， 有 关 PCIe 总 线 Snooping 位 的 
内 容 参见 第 6.1.3 节 。 

2. PowerPC 处 理 器 

在 MPC8548 处 理 器 中 ，HOST 主 桥 可 以 通过 PIWARn 寄存 器 ?的 RTT 字段 和 WTT 字段 
预知 PCI 设备 访问 的 存储 器 空间 是 否 为 可 Cache 空间 。 当 HOST 主 桥 访 问 “ 不 可 Cache 空间 
时 ”， 可 以 使 用 FSB 总 线 的 “不 进行 Cache 一 致 性 ”的 总 线 事务 。 

此 时 PowerPC 处 理 器 不 会 在 FSB 总 线 中 进行 Cache 一 致 性 操作 ， 即 忽略 FSB 总 线 事务 
的 Snoop Phase。PCI 设备 进行 DMA 写 时 ， 数 据 将 直接 进入 主 存储 器 ， 而 PCI 设备 进行 DMA 
读 所 读 取 的 数据 将 直接 从 主 存储 器 获得 。 与 x86 处 理 器 相 比 ，PowerPC 处 理 器 可 以 忽略 CPU 
进行 总 线 监 听 的 动作 ， 从 而 提高 了 FSB 传送 效率 。 


3.3.3 PCI 设备 对 可 Cache 的 存储 器 空间 进行 DMA 读 写 


PCI 设备 向“ 可 Cache 的 存储 需 空 间 ” 进 行 读 操作 的 过 程 相对 简单 。 对 于 x86 处 理 央 或 
者 PowerPC 处 理 器 ， 如 果 访 问 的 数据 在 Cache 中 命中 ，CPU 会 通知 FSB 总 线 ，PCI 设备 所 访 
问 的 数据 在 Cache 中 。 

首先 HOST 主 桥 发 起 存储 器 读 总 线 事务 ， 并 在 Request Phase 中 提供 地 址 。Snoop Agent 
在 Snoop Phase 进行 总 线 监听 ， 并 通过 HIT# 和 HITM# 信 和 号 将 监听 结果 通知 给 Response Agent。 
如 果 Cache 行 的 状态 为 了 时 ，Response Agent 将 提供 数据 ， 而 CPU 不 必 改 变 Cache 行 状态 。 
如 果 Snoop Agent 可 以 直接 将 数据 提供 给 HOST 主 桥 ， 无 疑 数据 访问 的 延 时 更 短 ， 但 是 采用 
这 种 方法 无 疑 会 极 大 地 提高 Cache Memory 系统 的 设计 难度 ， 因 此 采用 这 种 数据 传送 方式 的 
处 理 器 ”并 不 多 。 

如 果 Cache 行 的 状态 为 M 时 ，Response Agent 在 Response Phase 阶段 ， 要 求 Snoop Agent 
将 Cache 中 的 数据 回 写 到 存储 器 ， 并 将 Cache 行 状态 更 改 为 下 。Snoop Agent 在 Data Phase 将 
Cache 中 的 数据 回 写 给 存储 器 控制 器 ， 同 时 为 HOST 主 桥 提 供 数据 。Snoop Agent 也 可 以 直接 
将 数据 提供 给 HOST 主 桥 ， 不 需要 进行 数据 回 写 过 程 ， 也 不 更 改 Cache 行 状态 ,但 是 采用 这 
种 方法 会 提高 Cache Memory 系统 的 设计 难度 。 


”该 寄存 器 在 mbound 寄存 器 组 中 ， 详 见 第 2.2.3 节 。 
晶 目前 Cortex A8/A9 和 Intel 的 Sandy Bridge 处 理 右 支持 这 种 方式 。 
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如 果 PCI 设备 访问 的 数据 没有 在 Cache 中 命中 ，Snoop Agents 会 通知 FSB 总 线 ，PCI 设 
备 所 访问 的 数据 不 在 Cache 中 ， 此 时 存储 器 控制 器 (Response Agent) 将 在 Data Phase 向 
HOST 主 桥 提供 数据 。 

PCI 设备 向 “可 Cache 的 ”存储 器 区 域 进行 写 操作 ， 无 论 对 于 PowerPC 处 理 器 还 是 x86 
处 理 器 ， 都 较为 复杂 。 当 HOST 主 桥 通过 FSB 将 数据 发 送 给 存储 絮 控 制 器 时 ， 在 这 个 系统 总 
线 上 的 所 有 CPU 都 需要 对 这 个 PCI 写 操作 进行 监听 ， 并 根据 监听 结果 ， 合 理 地 改动 Cache 
行 状态 ， 并 将 数据 写 入 存储 器 。 

下 面 以 图 3-7 所 示 的 SMP 处 理 器 系统 为 例 ， 说 明 PCI 设备 对 “可 Cache 的 存储 器 空间 ” 
进行 DMA 写 的 实现 过 程 。 


存储 器 
控制 器 


1 
PCI 设 备 01 PCI 设 备 02 PCI 设 备 03 


图 3-7 PCI 设 备 向 可 Cache 的 存储 器 空间 进行 写 操作 


在 图 3-7 所 示 的 处 理 器 系统 中 ,存在 4 个 CPU, 这 4 个 CPU 通过 一 条 FSB 连接 在 一 起 ， 
CPU 之 间 使 用 MESI 协议 进行 Cache 一 致 性 处 理 ， 而 HOST 主 桥 和 存储 器 控制 器 与 FSB 直接 
相连 。HOST 主 桥 向 存储 器 控制 器 传递 数据 时 ， 需 要 处 理 Cache 的 一 致 性 。 

在 这 个 处 理 器 系统 中 ， 当 PCI 设备 ， 如 PCI 设备 01 ， 进 行 DMA 写 操作 时 ， 数 据 将 首先 
到 达 HOST 主 桥 ， 而 HOST 主 桥 将 首先 接管 该 PCI 设备 数据 访问 并 将 其 转换 为 FSB 总 线 事 
务 ， 并 在 Request Phase 中 ， 提 供 本 次 FSB 总 线 事务 的 地 址 。CPU 将 在 Snoop Phase 对 这 个 地 
址 进行 监听 ， 判 断 当 前 地 址 在 Cache 中 的 命中 情况 。 

当 HOST 主 桥 访 问 的 地 址 不 在 Cache 中 命中 时 ， 此 时 在 处 理 器 系统 中 ， 所 有 CPU 都 没有 
驱动 HIT# 和 HITM# 信 号 ，HIT# 和 HITM# 信 和 号 都 为 1， 表示 HOST 主 桥 访问 的 地 址 没有 在 
CPU 的 Cache 中 命中 ，HOST 主 桥 可 以 简单 地 将 数据 写 人 存储器。 当 HOST 主 桥 访问 的 存储 
器 地 址 在 Cache 中 命中 时 ，Cache 行 的 状态 可 以 为 S、E 或 者 为 M， 此 时 处 理 器 系统 的 处 理 
过 程 相对 较为 复杂 ， 下 一 节 将 专门 讨论 这 种 情况 。 


3.3.4 PCI 设备 进行 DMA 写 时 发 生 Cache 命中 


如 果 PCI 设备 访问 的 地 址 在 某 个 CPU 的 Cache 行 中 命中 时 ， 可 能 会 出 现 三 种 情况 。 

第 一 种 情况 是 命中 的 Cache 行 其 状态 为 下 ， 即 Cache 行 中 的 数据 与 存储 器 中 的 数据 一 
致 ， 而 第 二 种 情况 是 命中 的 Cache 行 其 状态 为 S。 其 中 上 位 为 1 表示 该 数据 在 SMP 处 理 器 系 
统 中 ， 有 且 仅 有 一 个 CPU 的 Cache 中 具有 数据 副本 ; 而 S 位 为 1 表示 在 SMP 处 理 器 系统 中 ， 
该 数据 至 少 在 两 个 以 上 CPU 的 Cache 中 具有 数据 副本 。 

当 Cache 行 状 态 为 下 上 时， 这 种 情况 比较 容易 处 理 。 因 为 PCI 设备 (通过 HOST 主 桥 ) 写 
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人 存储 器 的 信息 比 Cache 行 中 的 数据 新 ， 而 且 PCI 设备 在 进行 DMA 写 操 作 之 前 ， 存 储 器 与 
Cache 中 数据 一 致 ， 此 时 CPU 仅 需 要 在 Snoop Phase 使 无 效 (Invalidate) 这 个 Cache 行 ， 然 
后 FSB 总 线 事务 将 数据 写 和 存储 器 即 可 。 当 然 如 果 FSB 总 线 事务 可 以 将 数据 直接 写 和 人 
Cache， 并 将 Cache 行 的 状态 更 改 为 M， 也 可 提高 DMA 写 的 效率 ， 这 种 方式 的 实现 难度 较 
大 ， 第 3.3.5 节 将 介绍 这 种 优化 方式 。 

Cache 行 状 态 为 $ 时 的 处 理 情况 与 状态 为 E 时 的 处 理 情况 大 同 小 异 ，PCI 设备 在 进行 写 
操作 时 也 将 数据 直接 写 人 主 存储 器 ， 并 使 无 效 状态 为 $ 的 Cache 行 。 

第 三 种 情况 是 命中 的 Cache 行 其 状态 为 M (Modified)， 即 Cache 行 中 的 数据 与 存储 器 的 
数据 不 一 致 ，Cache 行 中 保存 最 新 的 数据 副本 ， 主 存储 器 中 的 部 分 数据 无 效 。 对 于 SMP 系 
统 ， 此 时 有 且 仅 有 一 个 CPU 中 的 Cache 行 的 状态 为 M， 因 为 MESI 协议 规定 存储 器 中 的 数据 
不 能 在 多 个 CPU 的 Cache 行 中 的 状态 为 M。 

我 们 假定 一 个 处 理 器 的 Cache 行 长 度 为 32B， 即 256b。 当 这 个 Cache 行 的 状态 为 M 时 ， 
表示 这 个 Cache 行 的 某 个 字 节 、 双 字 、 几 个 双 字 、 或 者 整个 Cache 行 中 的 数据 比 主 存储 器 中 
含有 的 数据 新 。 

假设 HOST 主 桥 访问 的 地 址 ， 在 Snoop Phase， 通 过 CPU 进行 总 线 监听 后 ， 发 现 其 对 应 
的 Cache 行 状态 为 M。 此 时 HOST 主 桥 进行 存储 器 写 操作 时 ， 处 理 情 况 较为 复杂 ， 此 时 这 些 
状态 为 M 的 数据 需要 回 写 到 主 存储 器 。 

下 面 考虑 如 图 3-8 所 示 的 实例 。 假 定 处 理 器 的 Cache 使 用 回 写 ( Write-Back) 策略 进行 
更 新 。 在 这 个 实例 中 ，HOST 主 桥 对 存储 器 的 某 个 地 址 进行 写 操 作 ， 而 所 有 CPU 通过 FSB 
总 线 进行 总 线 监 听 时 发 现 ，HOST 主 桥 使 用 的 这 个 目的 地 址 在 某 个 CPU 的 Cache 行 命 中 ， 此 
时 这 个 CPU 将 置 HITM# 信 号 为 0， 并 置 HIT# 信 号 为 1， 表 示 当 前 Cache 行 中 含有 的 数据 比 存 
储 器 中 含有 的 数据 更 新 。 


图 3-8 PCI 设备 向 Cache 行 状 态 为 M 的 存储 右 进 行 写 操作 


假设 此 时 在 Cache 行 中 ， 阴 影 部 分 的 数据 比 存储 器 中 的 数据 新 ， 而 其 他 数据 与 存储 器 保 
持 一 致 ， 即 在 这 个 Cache 行 中 第 0 ~3 个 双 字 的 数据 是 当前 处 理 器 系统 中 最 新 的 数据 ， 而 第 4 
~7 个 双 字 中 的 数据 与 存储 器 保持 一 致 。 
如 果 PCI 设备 向 存储 器 写 的 数据 区 域 可 以 完全 覆盖 这 些 阴影 部 分 ， 如 对 第 0 ~5 个 双 字 
进行 写 操作 时 ， 这 种 情况 不 难处 理 。 此 时 CPU 只 需 在 总 线 监 听 阶 段 ， 将 这 个 Cache 行使 无 
效 ， 然 后 将 数据 写 人 存储 器 即 可 。 因 为 完成 这 个 存储 器 写 操作 之 后 ，PCI 设备 写 和 的 数据 是 
最 新 的 ， 而 且 这 个 最 新 的 数据 将 完全 和 覆盖 在 Cache 行 中 阴影 部 分 的 数据 ， 所 以 CPU 只 需要 
简单 地 将 这 个 Cache 行使 无 效 即 可 。 


Tt 
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然而 PCI 设备 (HOST 主 桥 ) 无 法 预先 知道 这 些 Cache 行 中 的 数据 哪些 是 有 效 的 ， 哪 些 
是 无 效 的 ， 而 仅 知道 命中 了 一 个 “被 修改 过 ”的 Cache 行 ， 从 而 PCI 设备 (HOST 主 桥 ) 无 
法 保证 对 Cache 行 中 有 效 数据 进行 覆盖 。 因 此 PCI 设备 对 存储 器 进行 写 操作 时 ， 不 能 简单 地 
使 无 效 (Invalid) 状态 位 为 M 的 Cache 行 。 

仍然 以 图 3-8 为 例 ， 考 虑 一 个 PCI 设备 将 4 个 双 字 (第 4 ~7 个 双 字 ) 的 数据 写 人 到 一 
个 存储 器 中 ， 这 4 个 双 字 所 访问 的 数据 在 某 个 CPU 的 Cache 行 中 命中 ， 而 且 该 Cache 行 的 状 
态 为 M， 而 且 这 个 Cache 行 的 前 4 个 双 字 曾 被 处 理 器 修改 过 。 

此 时 CPU 对 FSB 总 线 监 听 时 ， 不 能 简单 将 当前 Cache 行使 无 效 ， 因 为 这 个 使 无 效 操作 
将 丢失 阴影 部 分 的 有 效 数 据 。 这 个 阴影 部 分 中 的 有 效 数 据 并 没有 被 PCI 设备 重新 写 人 ， 因 此 
在 整个 处 理 器 系统 中 ， 这 个 阴影 部 分 仍然 包含 最 新 的 数据 。 将 最 新 的 数据 丢弃 显然 是 一 种 错 
误 做 法 ， 会 导致 处 理 回 系统 的 崩溃 。 

为 此 HOST 主 桥 需要 专门 处 理 这 种 情况 ， 不 同 的 HOST 主 桥 采 用 了 不 同 的 方法 处 理 这 种 
情况 ， 但 无 外 乎 以 下 三 种 方法 。 

(1) CPU 进行 总 线 监听 后 发 现 ，HOST 主 桥 访 问 的 数据 命中 了 一 个 状态 位 为 M 的 Cache 
行 ， 此 时 存储 器 控制 器 将 通知 HOST 主 桥 重 试 或 者 延 时 处 理 ， 并 暂时 停止 HOST 主 桥 发 起 的 
这 次 存储 器 写 操作 。 随 后 CPU 将 状态 位 为 M 的 Cache 行 与 存储 器 进行 同步 后 ， 再 使 无 效 这 
个 Cache 行 。 之 后 HOST 主 桥 在 合适 的 时 机 ， 重 新 发 起 被 HOST 主 桥 要 求 重 试 的 总 线 事务 ， 
此 时 CPU 再 次 进行 总 线 监听 时 不 会 再 次 出 现 Cache 命中 的 情况 ， 因 此 HOST 主 桥 可 以 直接 将 
数据 写 人 存储 器 。 许 多 HOST 主 桥 使 用 这 种 方法 处 理 PCI 设备 的 存储 器 写 总 线 事务 。 

(2) 首先 HOST 主 桥 将 接收 PCI 设备 进行 DMA 写 的 数据 ， 并 将 这 些 数据 放 和 人 存储 器 控 
制 絮 的 一 个 缓冲 区 中 ， 同 时 结束 PCI 设备 的 存储 器 写 总 线 事务 。 之 后 CPU 进行 总 线 监听 ， 
如 果 CPU 发 现 HOST 主 桥 访问 的 数据 命中 了 一 个 状态 位 为 M 的 Cache 行 时 ， 则 这 个 Cache 
行 放 入 存储 器 控制 器 的 另 一 个 缓冲 区 后 ， 使 无 效 这 个 Cache 行 。 最 后 存储 需 控制 器 将 这 两 个 
缓冲 区 的 数据 合并 然后 统一 写 入 到 存储 器 中 。 

(3) HOST 主 桥 并 不 结束 当前 PCI 总 线 周期 ， 而 直接 进行 总 线 监听 ， 如 果 CPU 进行 总 线 
监听 发 现 HOST 主 桥 访问 的 数据 命中 了 一 个 状态 位 为 M 的 Cache 行 时 ， 则 将 这 个 Cache 行 整 
体 写 人 存储 器 控制 器 的 缓冲 区 后 使 无 效 这 个 Cache 行 ， 之 后 HOST 主 桥 开始 从 PCI 设备 接收 
数据 ， 并 将 这 些 数 据 直接 写 和 人 这 个 缓冲 区 中 。 最 后 HOST 主 桥 结束 PCI 设备 的 存储 器 写 总 线 
周期 ， 同 时 存储 器 控制 器 将 这 个 缓冲 区 内 的 数据 写 人 存储 器 。 

以 上 这 几 种 情况 是 PCI 设备 进行 存储 器 写 时 ，HOST 主 桥 可 能 的 处 理 情况 ， 其 中 第 1 种 
方法 最 常用 。 而 x86 处 理 器 使 用 的 implicit writeback 方式 ， 与 第 2 种 方法 基本 类 似 。 第 3 种 
方法 与 第 2 种 方法 并 没有 本 质 不 同 。 

但 是 如 果 PCI 设备 对 一 个 或 者 多 个 完整 Cache 行 的 存储 器 区 域 进行 写 操作 时 ， 上 述 过 程 
显得 多 余 。 对 完整 Cache 行进 行 写 操作 ， 可 以 保证 将 Cache 行 对 应 的 存储 器 区 域 完全 和 覆盖 ， 
此 时 Cache 行 中 的 数据 在 PCI 设备 完成 这 样 的 操作 后 ， 在 处 理 器 系统 中 将 不 再 是 最 新 的 。 
PCI 设备 进行 这 样 的 存储 器 写 操 作 时 ， 可 以 直接 将 数据 写 人 人 存储器， 同时 直接 使 无 效 状态 为 
M 的 Cache 行 。 

PCI 总 线 使 用 存储 器 写 并 无 效 ( Memory Write and Invalidate) 总 线 事务 ， 支 持 这 种 对 一 
个 完整 Cache 行进 行 的 存储 器 写 总 线 事务 。PCI 设备 使 用 这 种 总 线 事务 时 ， 必 须 事 先知 道 当 
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前 处 理 器 系统 中 CPU 使 用 的 Cache 行 大 小 ， 使 用 这 种 总 线 事务 时 ， 一 次 总 线 事务 传递 数据 
的 大 小 必须 以 Cache 行为 单位 对 界 。 为 此 PCI 设备 必须 使 用 配置 寄存 器 Cache Line Size 保存 
当前 Cache 行 的 大 小 ，Cache Line Size 寄存 器 在 PCI 配置 空间 的 位 置 见 图 2 -9。 

存储 屁 读 (Memory Read ) 、 存 储 央 多 行 读 (Memory Read Multiple) 和 存储 器 单行 读 
(Memory Read Line) 总 线 事务 也 是 PCI 总 线 中 的 重要 总 线 事务 ， 这 些 总 线 事务 不 仅 和 Cache 
有 关 ， 还 和 PCI 总 线 的 预 读 机 制 有 关 ， 在 第 3. 4. 5 节 中 将 重点 介绍 这 些 总 线 事务 。 


3.3.5 DMA 写 时 发 生 Cache 命中 的 优化 


在 许多 高 性 能 处 理 器 中 ， 还 提出 了 一 些 新 的 概念 ， 以 加 速 外 设 到 存储 器 的 DMA 写 过 
程 。 如 Freescale 的 IO Stashing 和 Intel 的 IOAT 技术 。 

如 图 3-8 所 示 ， 当 设备 进行 存储 器 写 时 ， 如 果 可 以 对 Cache 直接 进行 写 操作 ， 即 便 这 个 
存储 器 写 命 中 了 一 个 状态 为 M 的 Cache 行 ， 也 不 必 将 该 Cache 行 的 数据 回 写 到 存储 器 中 ， 而 
是 直接 将 数据 写 和 人 Cache， 之 后 该 Cache 行 的 状态 依然 为 M。 采 用 这 种 方法 可 以 有 效 提高 设 
备 对 存储 器 进行 写 操作 的 效率 。 采 用 直接 向 Cache 行 写 的 方法 ，PCI 设备 对 存储 器 写 命 中 一 
个 状态 为 M 的 Cache 行 时 ， 将 执行 以 下 操作 。 

(1) HOST 主 桥 将 对 存储 器 的 写 请 求 发 送 到 FSB 总 线 上 。 

(2) CPU 通过 对 FSB 监听 ， 发 现 该 写 请 求 在 某 个 Cache 行 中 命中 ， 而 且 该 Cache 行 的 状 
态 为 M。 

(3) HOST 主 桥 将 数据 直接 写 入 到 Cache 行 中 ， 并 保持 Cache 行 的 状态 为 M。 注 意 此 时 
设备 不 需要 将 数据 写 入 存储 器 中 。 

从 原理 上 看 ， 这 种 方法 并 没有 奇特 之 处 ， 只 要 Cache 能 够 提供 一 个 接口 ， 使 外 部 设备 能 
够 直接 写 人 即 可 。 但 是 从 具体 实现 上 看 ， 设 备 直 接 将 数据 写 和 人 Cache 中 ， 还 是 有 相当 大 的 难 
度 。 特 别 是 考虑 在 一 个 处 理 器 中 ， 可 能 存在 多 级 Cache ， 当 CPU 进行 总 线 监听 时 ， 可 能 是 在 
Ll1、12 或 者 L3 Cache 中 命中 ， 此 时 的 情况 较为 复杂 ， 多 级 Cache 间 的 协议 状态 机 远 比 FSB 
总 线 协 议 复杂 得 多 。 

在 一 个 处 理 器 系统 中 ， 如 果 FSB 总 线 事务 在 “与 FSB 直接 相连 的 Cache” 中 命中 时 ， 
这 种 情况 相对 容易 处 理 ; 但 是 在 与 BSB (Back-Side Bus) 直接 相连 的 Cache 命中 时 ， 这 种 情 
况 较 难处 理 。 下 面 分 别 对 这 两 种 情况 进行 讨论 ， 在 一 个 处 理 器 中 ,采用 FSB 和 BSB 连接 
Cache 的 拓扑 如 图 3-9 所 示 。 


L2 Cache 
Ll Cache |\ 


L1 Cache 


BSB 总 线 


\Stashing 
FSB 总 线 


L2 Cache 
PCI 设 备 


图 3-9 采用 FSB/BSB 进行 Cache 连接 


| ”FSB 总 线 


| 


存储 器 


控制 器 


控制 器 


85 


当 采 用 FSB 总 线 连接 L2 Cache 时 ，L2 Cache 直接 连接 到 FSB 总 线 上 ， 设 备 通过 FSB 总 
线 向 L2 Cache 进行 写 操作 并 不 难 实现 ，MPC8548 处 理 咒 就 是 采用 了 这 种 结构 将 L2 Cache 直 
接连 接 到 FSB 总 线 上 。 

但 是 由 于 FSB 总 线 的 频率 低 于 BSB 总 线 频率 ， 因 此 采用 这 种 结构 将 影响 L2 Cache 的 访 
问 速度 ， 为 此 高 端 处 理 器 多 采用 BSB 总 线 连接 L2 Cache，x86 处 理 器 在 Pentium Pro 之 后 的 
高 性 能 处 理 器 都 使 用 BSB 总 线 连接 L2 Cache，Freescale 的 G4 系列 处 理 器 和 最 新 的 P4080 处 
理 器 也 使 用 BSB 总 线 连接 L2 Cache。 

当 1L2 Cache 没有 直接 连接 到 FSB 上 时 ,来 自 外 部 设备 的 数据 并 不 容易 到 达 BSB 总 线 。 
除了 需要 考虑 Cache 连接 在 BSB 总 线 的 情况 外 ， 在 外 部 设备 进行 DMA 操作 时 ， 还 需要 考虑 
多 处 理 器 系统 的 Cache 共享 一 致 性 协议 。 设 计 一 个 专用 通道 ， 将 数据 从 外 部 设备 直接 写 人 到 
处 理 咒 的 Cache 中 并 不 容易 实现 。Intel 的 IOAT 和 Freescale 的 IO Stashing 可 能 使 用 了 这 种 
专用 通道 技术 ， 直 接 对 LI1 和 12 Cache 进行 写 操作 ， 并 在 极 大 增加 了 设计 复杂 度 的 前 提 下 ， 
提高 了 处 理 器 系统 的 整体 效率 。 

以 上 对 Cache 进行 直接 写 操作 ， 仅 是 Intel 的 IOAT 和 Freescale 的 IO Stashing 技术 的 一 
个 子 集 。 目 前 Intel 和 Freescale 没有 公开 这 些 技术 的 具体 实现 细节 。 在 一 个 处 理 器 系统 中 ， 
可 能 存在 多 级 Cache， 这 些 Cache 的 层次 组 成 结构 和 状态 机 模型 异常 复杂 ， 本 章 对 这 些 内 容 
不 做 进一步 说 明 。 


3.4 ” 预 读 机 制 


随 着 处 理 器 制造 工艺 的 进步 ， 人 处理 右 主 频 越 来 越 高 ， 存 储 器 和 外 部 设备 的 访问 速度 虽然 
也 得 到 极 大 的 提升 ,但 是 依然 不 与 处 理 器 主 频 的 提升 速度 成 正比 ， 从 而 处 理 器 的 运行 速度 和 
外 部 设备 的 访问 速度 之 间 的 差距 越 来 越 大 ， 存 储 器 瓶颈 问题 您 发 严重 。 虽 然 Cache 的 使 用 有 
效 缓解 了 存储 器 瓶颈 问题 ， 但 是 仅 使 用 Cache 远 远 不 够 。 

因为 无 论 Cache 的 命中 率 有 多 高 ， 总 有 发 生 Cache 行 Miss 的 情况 。 一 旦 Cache 行 出 现 
Miss， 处 理 需 必须 启动 存储 器 周期 ， 将 需要 的 数据 从 存储 器 重新 填 和 人 Cache 中 ， 这 在 某 种 程 
度 上 增加 了 存储 需 访 问 的 开销 。 

使 用 预 读 机 制 可 以 在 一 定 程度 上 降低 Cache 行 失 效 所 带 来 的 影响 。 处 理 器 系统 可 以 使 用 
的 预 读 机 制 ， 包 括 指令 Fetch、 数 据 预 读 、 外 部 设备 的 预 读 队 列 和 操作 系统 提供 的 预 读 策略 。 
本 章 将 简要 介绍 指令 Fetch， 并 重点 介绍 CPU 如 何 对 主 存储 器 和 外 部 设备 进行 数据 预 读 。 并 
以 此 为 基础 ， 详 细 说 明 PCI 总 线 使 用 的 预 读 机 制 。 


3.4.1 指令 Fetch 


昌 令 预 读 是 CPU 指令 流水 的 一 个 阶段 。 
在 一 段 程序 中 ， 存 在 大 量 的 分 支 预 测 指 令 ， 因 而 在 某 种 程度 上 增加 了 指令 Fetch 的 难 
度 。 因 此 如 何 判 断 程 序 的 执行 路 径 是 指令 流水 首先 需要 解决 的 问题 。 
在 CPU 中 通常 设置 了 分 支 预测 单元 ( Branch Predictor) ， 在 分 支 指令 执行 之 前 ， 分 支 预 
测 单元 需要 预 判 分 支 指令 的 执行 路 径 ， 从 而 进行 指令 Fetch。 但 是 分 支 预测 单元 并 不 会 每 次 
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都 能 正确 判断 分 支 指令 的 执行 路 径 ， 这 为 指令 Fetch 制造 了 不 小 的 麻烦 ， 在 这 个 背景 下 许多 
分 支 预测 策略 应 运 而 生 。 

这 些 分 文 预 测 策略 主要 分 为 静态 预测 和 动态 预测 两 种 方法 。 静 态 预 测 方法 的 主要 实现 原 
理 是 利用 Profiling 工具 ,静态 分 析 程 序 的 架构 ， 并 为 编译 带 提 供 一 些 反馈 信息 ， 从 而 对 程序 
的 分 支 指令 进行 优化 。 如 在 PowerPC 处 理 需 的 转移 指令 中 存在 一 个 “at” 字 段 ， 该 字段 可 以 
向 CPU 提供 该 转移 指令 是 否 Taken° 的 静态 信息 。 在 PowerPC 处 理 器 中 ,条件 转移 指令 
“be” 表示 Taken; 而 “bc-” 表 示 Not Taken。 

CPU 的 分 支 预 测 单元 在 分 析 转 移 指令 时 可 以 预先 得 知 该 指令 的 转移 结果 。 目 前 在 多 数 
CPU 中 提供 了 动态 预测 机 制 ， 而 且 动 态 预测 的 结果 较为 准确 。 因 此 在 实现 中 ,许多 PowerPC 
内 核 并 不 支持 静态 预测 机 制 ， 如 E500 内 核 。 

CPU 使 用 的 动态 预测 机 制 是 本 节 研 究 的 重点 。 而 在 不 同 的 处 理 器 中 ， 分 支 预 测 单元 使 
用 的 动态 预测 算法 并 不 相同 。 在 一 些 功能 较 弱 的 处 理 器 ， 如 8 b/16b 微 控制 器 中 ,分支 指令 
的 动态 预测 机 制 较为 简单 。 在 这 些 处 理 器 中 ， 分 支 预测 单元 常 使 用 以 下 几 种 方法 动态 预测 分 
文 指令 的 执行 。 

(1) 分 支 预测 单元 每 一 次 都 将 转移 指令 预测 为 Taken ， 采 用 这 种 方法 无 疑 非常 简单 ， 而 
且 命中 率 在 50% 以 上 ， 因 为 无 条 件 转移 指令 都 是 Taken， 当 然 使 用 这 种 方法 的 缺点 也 是 显 而 
易 见 的 。 

(2) 分 支 预测 单元 将 向 上 跳 转 的 指令 预测 为 Taken， 而 将 向 下 跳 转 的 指令 预测 为 Not 
Taken。 分 支 预测 单元 使 用 的 这 种 预测 方式 与 多 数 程序 的 执行 风格 类 似 ， 但 是 这 种 实现 方式 
并 不 理想 。 

(3) 一 条 转移 指令 被 预测 为 Taken， 而 之 后 这 条 转移 指令 的 预测 值 与 上 一 次 转移 指令 的 
执行 结果 相同 。 

当 采 用 以 上 几 种 方法 时 ， 分 支 预测 单元 的 硬件 实现 代价 较 低 ， 但 是 使 用 这 些 算法 时 ， 预 
测 成 功 的 概率 较 低 。 因 此 在 高 性 能 处 理 融 中 ， 如 PowerPC 和 x86 处 理 吉 并 不 会 采用 以 上 这 3 
种 方法 实现 分 支 预测 单元 。 

目前 在 高 性 能 人 处理 器 中 ， 常 使 用 BTB (Branch Target Buffer) 管理 分 支 预测 指令 。 在 
BTB 中 含有 多 个 Entry， 这 些 Entry 由 转移 指令 的 地 址 低位 进行 索引 ， 而 这 个 Entry 的 Tag 字 
段 存放 转移 指令 的 地 址 高 位 。BTB 的 功能 相当 于 存放 转移 指令 的 Cache， 其 状态 机 转换 也 与 
Cache 类 似 。 当 分 支 预测 单元 第 一 次 分 析 一 条 分 支 指令 时 ， 将 在 BTB 中 为 该 指令 分 配 一 个 
Entry， 同 时 也 可 能 会 淘汰 BTB 中 的 Entry。 目 前 多 数 处 理 需 使 用 LRU (Least recently used ) 
算法 淘汰 BTB 中 的 Entry。 

在 BTB 的 每 个 Entry 中 存在 一 个 Saturating Counter。 该 计数 如 也 被 称 为 Bimodal Predic- 
tor， 由 两 位 组 成 ， 可 以 表示 4 种 状态 ,为 0bl1 时 为 “Strongly Taken”; 为 0b10 时 为 “Weak- 
ly Taken”; 为 0b01 时 为 “Weakly not Taken”; 为 0b00 时 为 “Strongly not Taken”。 

当 CPU 第 一 次 预测 一 条 转移 指令 的 执行 时 ， 其 结果 为 Strongly Taken， 此 时 CPU 将 在 
BTB 中 为 该 指令 申请 一 个 Entry， 并 置 该 Entry 的 Saturating Counter 为 0b11。 此 后 该 指令 将 按 


”为 简便 起 见 ， 下 文 将 转移 指令 成 功 进行 转移 称 为 “Taken”; 而 将 不 进行 转移 称 为 “Not Taken”。 
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照 Saturating Counter 的 值 ， 预 测 执行 ， 如 果 预 测 结果 与 实际 执行 结果 不 同时 ， 将 Saturating 
Counter 的 值 减 1， 直 到 其 值 为 0b00; 如 果 相 同时 ， 将 Saturating Counter 的 值 加 1， 直 到 其 值 
为 0b11。 目 前 Power E500 内 核 和 Pentium 处 理 器 使 用 这 种 算法 进行 分 支 预 测 。 

使 用 Saturating Counter 方法 在 处 理 转移 指令 的 执行 结果 为 1111011111 或 者 0000001000 
时 的 效果 较 好 ， 即 执行 结果 大 多 数 为 0 或 者 1 时 的 预测 结果 较 好 。 然 而 如 果 一 条 转移 指令 的 
执行 结果 具有 某 种 规律 ， 如 为 010101010101 或 者 001001001001 时 ,使 用 Saturating Counter 
并 不 会 取得 理想 的 预测 效果 。 

在 程序 的 执行 过 程 中 ， 一 条 转移 指令 在 执行 过 程 中 出 现 这 样 有 规律 的 结果 较为 常见 ， 因 
为 程序 就 是 按照 某 种 规则 编写 的 ， 按 照 某 种 规则 完成 指定 的 任务 。 为 此 Two-Level 分 支 预 测 
方法 应 运 而 生 。 

Two-Level 分 支 预 测 方法 使 用 了 两 种 数据 结构 ， 一 种 是 BHR (Branch History Register ) ; 
而 另 一 种 是 PHT (Pattern History Table) 。 其 中 BHR 由 k 位 组 成 ， 用 来 记录 每 一 条 转移 指令 
的 历史 状态 ， 而 PHT 表 含 有 和 个 Entry， 每 个 Entry 由 两 位 Saturating Counter 组 成 。BHR 和 
PHT 的 关系 如 图 3-10 所 示 。 


00......00 
A 00......01 
/ 00......10 
Branch History Register(BHR) x 
更 新 时 左 移 / 
Patt Hist 
Ro Re Bu Ro, Re 1 Table(PHT)” 
古 司 厦 副 [11 0 Cg 
Counter 
N11......10 


R。: 转移 指令 B 的 执行 结果 


图 3-10 ”BHR 和 PHT 之 间 的 关系 


假设 分 支 预 测 单 元 在 使 用 Two-Level 分 支 预 测 方法 时 ,设置 了 一 个 PBHT 表 (Per-ad- 
dress Branch History Table) 存放 不 同 指令 所 对 应 的 BHR。 在 PBHT 表 中 所 有 BHR 的 初始 值 
为 全 1， 而 在 PHT 表 中 所 有 Entry 的 初始 值 值 为 0bl11。BHR 在 PBHT 表 中 的 使 用 方法 与 替换 
机 制 与 Cache 类 似 。 

当 分 支 预测 单元 分 析 预 测 转移 指令 B 的 执行 时 ， 将 首先 从 PBHT 中 获得 与 转移 指令 B 对 
应 的 BHR， 此 时 BHR 为 全 1， 因 此 CPU 将 从 PHT 的 第 11…11 个 Entry 中 获得 预测 结 
0bl11， 即 Strongly Taken。 转 移 指令 B 执行 完毕 后 ， 将 实际 执行 结果 Re 更 新 到 BHR 寄存 带 
中 ， 并 同时 更 新 PHT 中 对 应 的 Entry。 

当 CPU 再 次 预测 转移 指令 B 的 执行 时 ， 仍 将 根据 BHR 索引 PHT 表 ， 并 从 对 应 Entry 中 
获得 预测 结果 。 而 当 指令 B 再 次 执行 完毕 后 ， 将 继续 更 新 BHR 和 PHT 表 中 对 应 的 Entry。 
当 转 移 指令 的 执行 结果 具有 某 种 规律 ( Pattern) 时 ， 使 用 这 种 方法 可 以 有 效 提 高 预测 精度 。 
如 果 转 移 指令 B 的 实际 执行 结果 为 001001001…001， 而 且 上 等 于 4 时 ，CPU 将 以 0010- 
0100- 1001 这 样 的 循环 访问 BHR， 因 此 CPU 将 分 别 从 PHT 表 中 的 第 0010、0100 和 1001 个 
Entry 中 获得 准确 的 预测 结果 。 
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由 以 上 描述 可 以 发 现 ，Two-Level 分 文 预 测 法 具有 学 习 功 能 ， 并 可 以 根据 转移 指令 的 历 
史记 录 产 生 的 模式 ， 在 PHT 表 中 查找 预测 结果 。 该 算法 由 TY. Yeh 与 Y. N，Patt 在 1991 年 
提出 ， 并 在 高 性 能 处 理 器 中 得 到 了 大 规模 应 用 。 

Two-Level 分 支 预测 法 具有 许多 变种 。 目 前 x86 处 理 器 主要 使 用 “Local Branch Predic- 
tion” 和 “Global Branch Prediction” 两 种 算法 。 

在 “Local Branch Prediction” 算法 中 每 一 个 BHR 使 用 不 同 的 PHT 表 ， Pentium I 和 
Pentium II 处 理 器 使 用 这 种 算法 。 该 算法 的 主要 问题 是 当 PBHT 表 的 Entry 数目 增加 时 ，PHT 
表 将 以 指数 速度 增长 ， 而 且 不 能 利用 其 他 转移 指令 的 历史 信息 进行 分 支 预测 。 而 在 “Global 
Branch Prediction” 算 法 中 ， 所 有 BHR 共享 PHT 表 ，Pentium M 、Pentium Core 和 Core 2 处 理 
需 使 用 这 种 算法 。 

在 高 性 能 处 理 器 中 ， 分 支 预测 单元 对 一 些 特殊 的 分 支 指令 如 “Loop” 和 “Indireet 跳 转 
指令 ”设置 了 “Loop Prediction” 和 “Indireet Prediction” 部 件 优化 这 两 种 分 支 指令 的 预测 。 
此 外 分 支 预测 单元 ， 还 设置 了 RSB (Return Stack Buffer) ， 当 CPU 调用 一 个 函数 时 ，RSB 将 
记录 该 函数 的 返回 地 址 ， 当 函数 返回 时 ， 将 从 RSB 中 获得 返回 地 址 ， 而 不 必 从 堆栈 中 获得 
返回 地 址 ， 从 而 提高 了 函数 返回 的 效率 。 

目前 在 高 性 能 处 理 器 中 ， 动 态 分 支 预测 的 主要 实现 机 制 是 CPU 通过 学 习 以 往 历史 信息 ， 
并 进行 预测 ， 因 而 Neural branch predictors 机 制 被 引入 ， 并 取得 了 较为 理想 的 效果 ， 本 节 对 
这 种 分 支 预测 技术 不 做 进一步 说 明 。 目 前 指令 的 动态 分 支 预测 技术 较为 成 熟 ， 在 高 性 能 计算 
机 中 ， 分 支 预测 的 成 功 概率 在 95% ~ 98% 之 间 ， 而 且 很 难 进一步 提高 。 


3.4.2 数据 预 读 


数据 预 读 是 指 在 处 理 需 进行 运算 时 ， 提 前 通知 存储 器 系统 将 运算 过 程 中 需要 的 数据 准备 
好 ， 而 当 处 理 器 需要 这 些 数据 时 ， 可 以 直接 从 这 些 预 读 缓冲 (通常 指 Cache) 中 获得 这 些 数 
据 。Steven P，Vanderwiel 与 David J_ Liljja 总 结 了 最 近 出 现 的 各 类 数据 预 读 机 制 ， 下 面 将 以 
图 3-11 为 例 进 一 步 探 讨 这 些 数 据 预 读 机 制 。 
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图 3-11 数据 预 读 机 制 示意 图 
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图 3-11 列举 了 三 个 实例 说 明 数 据 预 读 的 作用 。 其 中 实例 a 没有 使 用 预 读 机 制 ; 实例 p 
是 一 个 采用 预 读 机 制 的 理想 情况 ;而 实例 e 是 一 个 采用 预 读 机 制 的 次 理想 情况 。 我 们 假设 处 
理 需 执行 某 个 任务 需要 经 历 四 个 阶段 ， 每 个 阶段 都 由 处 理 器 执行 运算 指令 和 存储 指令 组 成 。 
而 处 理 器 一 次 存储 央 访 问 需要 5 个 时 钟 周期 。 其 中 每 一 个 阶段 的 定义 如 下 所 示 。 

(1) 处 理 需 执行 4 个 时 钟 周 期 后 需要 访问 存储 顺 。 

(2) 处 理 需 执行 6 个 时 钟 周期 后 需要 访问 存储 需 。 

(3) 处 理 需 执行 8 个 时 钟 周期 后 需要 访问 存储 需 。 

(4) 处 理 器 执行 4 个 时 钟 周 期 后 完成 。 

实例 a 由 于 没有 使 用 预 读 机 制 ， 因 此 在 运算 过 程 中 需要 使 用 存储 需 中 的 数据 时 ， 不 可 避 
免 地 出 现 Cache Miss。 实 例 a 执行 上 述 任务 的 过 程 如 下 。 

(1) 执行 第 一 阶段 任务 的 4 个 时 钟 周期 ， 之 后 访问 存储 器 ， 此 时 将 发 生 Cache Miss。 

(2) Cache Miss 需要 使 用 一 个 时 钟 周期 ” ， 然 后 在 第 5 个 时 钟 周期 启动 存储 器 读 操作 。 

(3) 在 第 10 个 周期 ， 处 理 需 从 存储 央 获 得 数据 ， 继 续 执 行 第 二 阶段 任务 的 6 个 时 钟 周 
期 ， 之 后 访问 存储 器 ， 此 时 也 将 发 生 Cache Miss 。 

(4) 处 理 器 在 第 17 ~22 时 钟 周期 从 存储 需 读 取 数 据 ， 并 在 第 22 个 时 钟 周期 继续 执行 第 
三 阶段 任务 的 8 个 时 钟 周 期 ， 之 后 访问 存储 器 ， 此 时 也 将 发 生 Cache Miss。 

(5) 处 理 吉 在 第 31 ~36 时 钟 周期 从 存储 需 读 取 数 据 ， 并 在 第 36 个 时 钟 周 期 继续 执行 第 
四 阶段 任务 的 4 个 时 钟 周 期 ， 完 成 整个 任务 的 执行 。 

采用 这 种 机 制 执行 上 述 任务 共 需 40 个 时 钟 周 期 。 而 使 用 预 读 机 制 ， 可 以 有 效 缩短 整个 执行 
过 程 ， 如 图 3-11 中 的 实例 b 所 示 。 在 实例 b 中 在 执行 过 程 中 ， 都 会 提前 进行 预 读 操 作 ， 虽 然 这 
些 预 读 操作 也 会 占用 一 个 时 钟 周期 ， 但 是 这 些 预 读 操作 是 值得 的 。 合 理 使 用 这 些 数据 预 读 ， 完 成 
同样 的 任务 CPU 仅 需 要 28 个 时 钟 周期 ， 从 而 极 大 提高 了 程序 的 执行 效率 ， 其 执行 过 程 如 下 。 

(1) 首先 使 用 预 读 指 令 对 即将 使 用 的 存储 器 进行 预 读 >” ， 然 后 执行 第 一 阶段 任务 的 4 个 
时 钟 周期 。 当 处 理 器 进行 存储 器 读 时 ， 数 据 已 经 准备 好 ， 处 理 器 将 在 Cache 中 获得 这 个 数据 
然后 继续 执行 2 。 

(2) 处 理 需 在 执行 第 二 阶段 的 任务 时 ， 先 执行 2 个 时 钟 周期 之 后 进行 预 读 操 作 ， 最 后 执 
行 剩余 的 4 个 时 钟 周期 。 当 处 理 器 进行 存储 器 读 时 ， 数 据 已 经 准备 好 ， 处 理 器 将 在 Cache 中 
获得 这 个 数据 然后 继续 执行 。 

(3) 处 理 需 执行 第 三 阶段 的 任务 时 ， 先 执行 4 个 时 钟 周期 之 后 进行 预 读 操作 ， 最 后 执行 
剩余 的 4 个 时 钟 周期 。 当 处 理 器 进行 存储 需 读 时 ， 数 据 已 经 准备 好 ， 处 理 需 将 在 Cache 中 获 
得 这 个 数据 然后 继续 执行 。 

(4) 处 理 需 执行 第 四 阶段 的 任务 ， 执 行 完 4 个 时 钟 周期 后 ， 完 成 整个 任务 的 执行 。 

当然 这 种 情况 是 非常 理想 的 ， 处 理 器 在 执行 整个 任务 时 ， 从 始 至 终 是 连贯 的 ， 处 理 器 执 
行 和 存储 需 访 存 完 全 并 行 ， 然 而 这 种 理想 情况 并 不 多 见 。 

首先 在 一 个 任务 的 执行 过 程 中 ， 并 不 易 确 定 最 佳 的 预 读 时 机 ; 其 次 采用 预 读 所 获得 数据 


”假定 从 访问 Cache 到 发 现 Cache Miss 需要 一 个 时 钟 周 期 。 
全 ”PowerPC 处 理 器 使 用 dcbt 指令 ， 而 x86 处 理 器 使 用 PREFETCHh 指令 ， 实 现 这 种 软件 预 读 。 
外 假定 从 Cache 中 获得 数据 需要 一 个 时 钟 周 期 。 
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并 不 一 定 能 够 被 及 时 利用 ， 因 为 在 程序 执行 过 程 中 可 能 会 出 现 各 种 各 样 的 分 支 选择 ， 有 了 时 预 
读 的 数据 并 没有 被 及 时 使 用 。 

在 图 3-11 所 示 的 实例 e 中 ， 预 读 机 制 没 有 完全 发 挥 作用 ， 所 以 处 理 器 在 执行 任务 时 ， 
Cache Miss 时 有 发 生 ， 从 而 降低 了 整个 任务 的 执行 效率 。 即 便 这 样 ， 实 例 e 也 比 完全 没有 使 
用 预 读 的 实例 a 的 任务 执行 效率 高 一 些 。 在 实例 e 中 ， 执 行 完 毕 图 3-11 中 所 示 的 任务 共 需 
要 34 个 时 钟 周 期 。 

但 是 在 某 些 特殊 情况 下 ， 采 用 预 读 机 制 有 可 能 会 降低 效率 。 首 先 在 一 个 较为 复杂 的 应 用 中 ， 
很 有 可 能 预 读 的 数据 没有 被 充分 利用 ， 一 个 程序 可 能 会 按照 不 同 的 分 支 执 行 ， 而 执行 每 一 个 分 支 
所 使 用 的 数据 并 不 相同 。 其 次 预 读 的 数据 即使 是 有 效 的 ， 这 些 预 读 的 数据 也 会 污染 整个 Cache 资 
源 ， 在 大 规模 并 行 任务 的 执行 过 程 中 ， 有 可 能 引发 Cache 颠 艇 ， 从 而 极 大 地 降低 系统 效率 。 

什么 时 候 采 用 预 读 机 制 ， 关 系 到 处 理 器 系统 结构 的 每 一 个 环节 ， 需 要 结合 软 硬 件 资源 统 
筹 考虑 ， 并 不 能 一 概 而 论 。 处 理 器 提供 了 必 备 的 软件 和 硬件 资源 用 以 实现 预 读 ， 而 如 何 
“合理 ”使 用 预 读 机 制 是 系统 程序 员 考 虑 的 一 个 细节 问题 。 数 据 预 读 可 以 使 用 软件 预 读 或 者 
硬件 预 读 两 种 方式 实现 ， 下 文 将 详细 介绍 这 两 种 实现 方式 。 


3.4.3 软件 预 读 


软件 预 读 机 制 由 来 已 入， 首先 实现 预 读 指令 的 处 理 器 是 Motorola 的 88110 处 理 器 ， 这 颗 
处 理 器 首先 实现 了 “touch load” 指 令 ， 这 条 指令 是 PowerPC 处 理 器 dcbt 指令 2 的 雏形 。 
88110 处 理 器 是 Motorola 第 一 颗 RISC 处 理 器 ， 具 有 里 程 碑 意义 。 这 颗 处 理 器 从 内 核 到 外 部 
总 线 的 设计 都 具有 许多 亮点 ， 是 Motorola 对 PowerPC 架构 做 出 的 巨大 贡献 。PowerPC 架构 中 
著名 的 60X 总 线 也 源 于 88110 处 理 器 。 

后 来 绝 大 多 数 处 理 器 都 采用 这 类 指令 进行 软件 预 读 ，Intel 在 i486 处 理 器 中 提出 了 Dum- 
my Read 指令 ， 这 条 指令 也 是 后 来 x86 处 理 器 中 PREFETCHh 指令 2 的 雏形 。 

这 些 软件 预 读 指 令 都 有 一 个 共同 的 特点 ， 就 是 在 处 理 器 真正 需要 数据 之 前 ， 向 存储 器 发 
出 预 读 请 求 ， 这 个 预 读 请 求 不 需要 等 待 数据 真 正 到 达 存 储 器 之 后 ， 就 可 以 执行 完毕 2 。 从 而 
处 理 器 可 以 继续 执行 其 他 指令 ， 以 实现 存储 器 访问 与 处 理 器 运算 同步 进行 ， 从 而 提高 了 程序 
的 整体 执行 效率 。 由 此 可 见 ， 处 理 器 采用 软件 预 读 可 以 有 效 提高 程序 的 执行 效率 。 下 面 考虑 
源 代码 3-1 所 示 的 实例 。 


源 代码 3-1 源 代码 3-1 没有 采用 软件 预 读 机 制 的 程序 


int ip, a N], b[LN]; 


for (i=0; i<N; i++) 
ip=ip+ali] * b[i]; 


这 个 例子 在 对 数组 进行 操作 时 被 经 党 使用， 这 段 源 代码 的 作用 是 将 int 类 型 的 数组 a 和 


”debt 指令 是 PowerPC 处 理 器 的 一 条 存储 器 预 读 指 令 ， 该 指令 可 以 将 内 存 中 的 数据 预 读 到 L1 或 者 L2 Cache 中 。 
昌 PREFETCHh 指令 是 x86 处 理 髓 的 一 条 存储 器 预 读 指令 。 
外“ 预 读 指令 在 一 个 时 钟 周期 内 就 可 以 执行 完毕 。 
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数组 b 的 每 一 项 进行 相 乘 ， 然 后 赋值 给 ip， 其 中 数组 a 和 b 都 是 Cache 行 对 界 的 。 源 代码 
3--1 中 的 程序 并 没有 使 用 预 读 机 制 进行 优化 ， 因 此 这 上 段 程序 在 执行 时 会 因为 a[fi] 和 b[i] 中 的 
数据 不 在 处 理 器 的 Cache 中 ， 而 必须 启动 存储 器 读 操 作 。 因 此 在 这 段 程序 在 执行 过 程 中 ， 必 
须要 等 待 存储 器 中 的 数据 后 才能 继续 ， 从 而 降低 了 程序 的 执行 效率 。 为 此 将 程序 进行 改动 ， 
如 源 代 码 3-2 所 示 。 


源 代 码 3-2 采用 软件 预 读 机 制 的 程序 


int ip, a N], b[LN]; 


for (i1=0; i<N; i++) | 
fetch( &a[l i+1|]); 
fetch(&b[i+1|]); 
ip=ip+ali] * b[i]; 


| 


以 上 程序 对 变量 ip 赋值 之 前 ， 首 先 预 读数 组 a 和 b， 当 对 变量 ip 赋值 时 ， 数 组 a 和 b 中 
的 数据 已 经 在 Cache 中 ， 因 而 不 需要 进行 再 次 进行 存储 器 操作 ， 从 而 在 一 定 程 度 上 提高 了 代 
码 的 执行 效率 。 以 上 代码 仍然 并 不 完美 ， 首 先 ,， 记 、a[0] 和 blL0] 并 没有 被 预 读 ， 其 次 ， 在 
一 个 处 理 器 中 预 读 是 以 Cache 行为 单位 进行 的 ， 因 此 对 a[0] 、a[1] 进 行 预 读 时 都 是 对 同一 
个 Cache 行进 行 预 读 2 ， 从 而 这 段 代 码 对 同一 个 Cache 行进 行 了 多 次 预 读 ， 结 果 影 响 了 执行 
效率 。 为 此 再 次 改动 程序 ， 如 源 代 码 3-3 所 示 。 

源 代 码 3-3 ”软件 预 读 机 制 的 改进 程序 


int ip, a N], b[LN]; 


fetch( &ip); 
fetch( &al 0 | ); 
fetch( &b[ 0 | ) ; 


for (i=0; i<N-4; i+=4) | 
fetch( &al i +4|]); 
fetch( &b[ i+4|]); 
ip=ip+ali] * b[i]; 
ip=ip+ali+l1] *b[i+1]; 


ip=ip+a[li+2] x*b[i+2]; 
ip=ip+a[li+3] x*b[i+3]; 
| 


for (; i1<N; i++) 


ip=ip+ali] * b[i]; 


”假定 这 个 处 理 器 系统 的 Cache 行 长 度 为 4 个 双 字 ， 即 128 位 。 


对 于 以 上 这 个 例子 ， 采 用 这 种 预 读 方法 可 以 有 效 提高 执行 效率 ， 对 此 有 兴趣 的 读者 可 以 
对 以 上 几 个 程序 进行 简单 的 对 比 测 试 。 但 是 提醒 读者 注意 ， 有 些 较 为 先进 的 编译 器 ， 可 以 自 
动 加 入 这 些 预 读 语 句 ， 程 序 员 不 必 手 工 加 入 这 些 预 读 指 令 。 实 际 上 源 代 码 3-3 中 的 程序 还 
可 以 进一步 优化 。 这 段 程序 的 最 终 优化 如 源 代码 3-4 所 示 。 


源 代码 3-4 ”软件 预 读 机 制 的 改进 程序 


int ip, a N], bLN]; 


fetch( &ip) ; 


for (1=0; i1<12; i+=4)| 
fetch( &al[i|); 
fetch( &b[i|]); 

| 


for (i=0; i<N-12; i+=4)| 
fetch( &ali+12|]); 
fetch( &b[i+12]); 


ip=ip+ali] *bli]; 

ip=ip+a[li+l1] *b[i+1]; 
ip=ip+a[li+2] *b[i+2]; 
ip=ip+a[li+3] *b[i+3]; 


| 


for ( ;i1<N; i++) 
ip=ip+ali] * bli]; 


还 可 以 对 ip、 数 据 a 和 b 进行 充分 预 读 之 后 ， 再 一 边 预 读数 据 ， 一 边 计算 ip 的 值 ， 最 
后 计算 ip 的 最 终结 果 。 使 用 这 种 方法 可 以 使 数据 预 读 和 计算 充分 并 行 ， 从 而 优化 了 整个 任 
务 的 执行 时 间 。 

由 以 上 程序 可 以 发 现 ， 采用 软件 预 读 机 制 可 以 有 效 地 对 和 矩阵 运算 进行 优化 ， 因 为 矩阵 运 
算 进 行 数据 访问 时 非常 有 规律 ， 便 于 程序 员 或 编译 器 进行 优化 ， 但 是 并 不 是 所 有 程序 都 能 如 
此 方便 地 使 用 软件 预 读 机 制 。 此 外 预 读 指 令 本 和 喘 也 需要 占用 一 个 机 器 周期 ， 在 某 些 情况 下 ， 
采用 硬件 预 读 机 制 更 为 合理 。 


3.4.4 硬件 预 读 


采用 硬件 预 读 的 优点 是 不 需要 软件 进行 干预 ， 也 不 需要 浪费 一 条 预 读 指令 来 进行 预 读 。 

但 硬件 预 读 的 缺点 是 预 读 结果 有 时 并 不 准确 ， 有 时 预 读 的 数据 并 不 是 程序 执行 所 需要 的 。 在 

许多 处 理 器 中 这 种 硬件 预 读 通 常 与 指令 预 读 协调 工作 。 硬 件 预 读 机 制 的 历史 比 软 件 预 读 更 为 
久远, 在 IBM 370/168 处 理 需 系统 中 就 已 经 支持 硬件 预 读 机 制 。 

大 多 数 硬件 预 读 仅 支 持 存 储 器 到 Cache 的 预 读 ， 并 在 程序 执行 过 程 中 ， 利 用 数据 的 局 部 
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性 原理 进行 硬件 预 读 。 其 中 最 为 简单 的 硬件 预 读 机 制 是 OBL (One Block Lookahead) 机 制 ， 
采用 这 种 机 制 ， 当 程序 对 数据 块 b 进行 读 取出 现 Cache Miss 时 ， 将 数据 块 b 从 存储 器 更 新 到 
Cache 中 ， 同 时 对 数据 块 b + 1 也 进行 预 读 并 将 其 放 入 Cache 中 ; 如 果 数 据 块 b+1 已 经 在 
Cache 中 ， 则 不 进行 预 读 。 

这 种 OBL 机 制 有 很 多 问题 ， 一 个 程序 可 能 只 使 用 数据 块 b 中 的 数据 ， 而 不 使 用 数据 块 p 
+1 中 的 数据 ， 在 这 种 情况 下 ， 采 用 0BL 预 读 机 制 没 有 任何 意义 。 而 且 使 用 这 种 预 读 机 制 
时 ， 每 次 预 读 都 可 能 伴随 着 Cache Miss， 这 将 极 大 地 影响 效率 。 有 时 预 读 的 数据 块 b+1 会 
将 Cache 中 可 能 有 用 的 数据 替换 出 去 ， 从 而 造成 Cache 污染 。 有 时 仅 预 读数 据 块 b+1l 可 能 
并 不 足够 ， 有 可 能 程序 下 一 个 使 用 的 数据 块 来 自 数据 块 b +2。 

为 了 解决 OBL 机 制 存在 的 问题 ， 有 许多 新 的 预 读 方法 涌现 出 来 ， 如 “tagged 预 读 机 
制 "。 采 用 这 种 机 制 ， 将 设置 一 个 “tag 位 ”， 处 理 器 访问 数据 块 b 时 ， 如 果 数 据 块 b 没有 在 
Cache 中 命中 ， 则 将 数据 块 b 从 存储 器 更 新 到 Cache 中 ， 同 时 对 数据 块 b+1 进行 预 读 并 将 其 
放 入 Cache 中 ; 如 果 数 据 块 b 已 经 在 Cache 中 ,但 是 这 个 数据 块 b 首次 被 处 理 需 使 用 ， 此 时 
也 将 数据 块 b+1 预 读 到 Cache 中 ; 如 果 数 据 块 b 已 经 在 Cache 中 ,但 是 这 个 数据 块 b 已 经 
被 处 理 需 使 用 过 ， 此 时 不 将 数据 块 b +1 预 读 到 Cache 中 。 

这 种 “tagged 预 读 机 制 ” 还 有 许多 衍生 机 制 ， 比 如 可 以 将 数据 块 b +1，b +2 都 预 读 到 
Cache 中 ， 还 可 以 根据 程序 的 执行 信息 ， 将 数据 块 b -1，b -2 预 读 到 Cache 中 。 

但 是 这 些 方法 都 无 法 避免 因为 预 读 而 造成 的 Cache 污染 问题 ， 于 是 出 现 了 Stream buffer 
机 制 。 采 用 该 机 制 ， 处 理 器 可 以 将 预 读 的 数据 块 放 入 Stream Buffer 中 ， 如 果 处 理 器 使 用 的 数 
据 没有 在 Cache 中 ， 则 首先 在 Stream Buffer 中 查找 ， 采 用 这 种 方法 可 以 消除 预 读 对 Cache 的 
污染 ,但 是 增加 了 系统 设计 的 复杂 性 。 

与 软件 预 读 机 制 相 比 ， 硬 件 预 读 机 制 可 以 根据 程序 执行 的 实际 情况 进行 预 读 操作 ， 是 一 
种 动态 预 读 方法 ;而 软件 预 读 机 制 需要 对 程序 进行 静态 分 析 ， 并 由 编译 器 自动 或 者 由 程序 员 
手工 加 入 软件 预 读 指令 来 实现 。 


3.4.5 ”PCI 总 线 的 预 读 机 制 


在 一 个 处 理 器 系统 中 ， 预 读 的 目标 设备 并 不 仅 限 于 存储 器 ， 程 序 员 还 可 以 根据 实际 需要 
对 外 部 设备 进行 预 读 。 但 并 不 是 所 有 的 外 部 设备 都 支持 预 读 ， 只 有 “well-behavior” 存 储 需 
支持 预 读 。 处 理 器 使 用 的 内 部 存储 器 ， 如 基于 SDRAM、DDR-SDRAM 或 者 SRAM 的 主 存储 
人 右 是 “well-behavior” 存 储 器 ， 有 些 外 部 设备 也 是 “well-behavior” 存 储 絮 。 这 些 well-behav- 
ior 存储 器 具有 以 下 特点 。 

(1) 对 这 些 存储 需 设 备 进 行 读 操作 时 不 会 改变 存储 器 的 内 容 。 显 然 主 存储 需 具 有 这 种 性 
质 。 如 果 一 个 主 存储 副 的 一 个 数据 为 0， 那 么 读 取 这 个 数据 100 次 也 不 会 将 这 个 结果 变 为 1。 
但 是 在 外 部 设备 中 ， 一些 使 用 存储 器 映像 寻 址 的 寄存 器 具有 读 清 除 的 功能 。 比 如 某 些 中 断 状 
态 寄存 器 S 。 当 设备 含有 未 处 理 的 中 断 请 求 时 ， 该 寄存 器 的 中 断 状态 位 为 1， 对 此 寄存 器 进 
行 读 操作 时 ,硬件 将 自动 地 把 该 中 断 位 清 零 ， 这 类 采用 存储 映像 寻 址 的 寄存 带 就 不 是 well- 
behavior 存储 器 。 


G@ 假设 中 断 状态 寄存 器 支持 读 清除 功能 。 
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(2) 对 “well-behavior” 存 储 器 的 多 次 读 操作 ， 可 以 合并 为 一 次 读 操作 。 如 向 这 个 设备 
的 地 址 n，n+4，n+8g 和 n+12 地 址 处 进行 四 个 双 字 的 读 操作 ， 可 以 合并 为 对 n 地址 的 一 次 
突 发 读 操作 (大 小 为 4 个 双 字 )。 

(3) 对 “well-behavior” 存 储 器 的 多 次 写 操作 ， 可 以 合并 为 一 次 写 操作 。 如 向 这 个 设备 
的 地 址 n,n +4,，n +8 和 n+12 地 址 处 进行 四 个 双 字 的 写 操作 ， 可 以 合并 为 对 nm 地 址 的 一 次 
突 发 写 操 作 。 对 于 主 存储 器 ， 进 行 这 种 操作 不 会 产生 副作用 ， 但 是 对 于 有 些 外 部 设备 ， 不 能 
进行 这 种 操作 。 

(4) 对 “well-behavior” 的 存储 器 写 操 作 ， 可 以 合并 为 一 次 写 操作 。 向 这 个 设备 的 地 址 
n, n+1, n+2 和 n+3 地址 处 进行 四 个 单字 的 写 操作 ， 可 以 合并 为 对 nm 地 址 的 一 次 DW 写 
操作 。 对 主 存储 器 进行 这 种 操作 不 会 出 现 错误 ， 但 是 对 于 有 些 外 部 设备 ， 不 能 进行 这 种 


5 沾 
Nm 
从 


如 果 外 部 设备 满足 以 上 四 个 条 件 ， 该 外 部 设备 被 称 为 “well-behavior”。PCI 配置 空间 的 
BAR 寄存 器 中 有 一 个 “Prefectchable” 位， 该 位 为 1 时 表示 这 个 BAR 寄存 器 所 对 应 的 存储 器 
空间 支持 预 读 。PCI 总 线 的 预 读 机 制 需 要 HOST 主 桥 、PCI 桥 和 PCI 设备 的 共同 参与 。 在 PCI 
总 线 中 ， 预 读 机 制 需要 分 两 种 情况 进行 讨论 ， 一 个 是 HOST 处 理 顺 通过 HOST 主 桥 和 PCI 桥 
访问 最 终 的 PCI 设备 ; 另 一 个 是 PCI 设备 使 用 DMA 机 制 访 问 存储 器 。 

PCI 总 线 预 读 机 制 的 拓扑 结构 如 图 3-12 所 示 。 
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图 3-12 PCI 总 线 的 预 读 


由 上 图 所 示 ，HOST 人 处理 右 预 读 PCI 设备 时 ， 需 要 经 过 HOST 主 桥 ， 并 可 能 通过 多 级 
PCI 桥 ， 最 终 到 达 PCI 设备 ， 在 这 个 数据 传送 路 径 上 ， 有 的 PCI 桥 支持 预 读 ， 有 的 不 支持 预 
读 。 而 PCI 设备 对 主 存储 器 进行 预 读 时 也 将 经 过 多 级 PCI 桥 。PCI 设备 除了 可 以 对 主 存储 器 
进行 预 读 之 外 ， 还 可 以 预 读 其 他 PCI 设备 ,但 是 这 种 情况 在 实际 应 用 中 极 少 出 现 ， 本 节 仪 介 
绍 PCI 设备 预 读 主 存储 器 这 种 情况 。 

1. HOST 处 理 器 预 读 PCI 设备 

PCI 设备 的 BAR 寄存 器 可 以 设置 预 读 位 ， 首 先 支 持 预 读 的 BAR 寄存 器 空间 必须 是 一 个 
Well-behavior 的 存储 器 空间 ， 其 次 PCI 设备 必须 能 够 接收 来 自 PCI 桥 和 HOST 主 桥 的 MRM 
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(Memory Read Multiple) 和 MRL (Memory Read Line) 总 线 事务 。 

如 果 PCI 设备 支持 预 读 ， 那 么 当 处 理 器 对 这 个 PCI 设备 进行 读 操作 时 ， 可 以 通过 PCI 桥 
启动 预 读 机 制 (该 PCI 桥 也 需要 支持 预 读 ) ,使 用 MRM 和 MRL 总 线 事务 ， 对 PCI 设备 进行 
预 读 ， 并 将 预 读 的 数据 暂时 存放 在 PCI 桥 的 预 读 缓冲 中 。 

之 后 当 PCI 主 设备 继续 读 取 PCI 设备 的 BAR 空间 时 ， 如 果 访 问 的 数据 在 PCI 桥 的 预 读 
缓冲 中 ，PCI 桥 可 以 不 对 PCI 设备 发 起 存储 器 读 总 线 事务 ， 而 是 直接 从 预 读 缓冲 中 获取 数 
据 ， 并 将 其 传递 给 PCI 主 设备 。 当 PCI 主 设备 完成 读 总 线 事务 后 ，PCI 桥 必须 丢弃 预 读 的 数 
据 以 保证 数据 的 完整 性 。 此 外 当 PCI 桥 预 读 的 地 址 空间 超越 了 PCI 设备 可 预 读 BAR 空间 边 
界 时 ，PCI 设备 需要 “disconnect” 该 总 线 事务 。 

如 果 PCI 桥 支 持 “ 可 预 读 ”的 存储 器 空间 ， 而 且 其 下 挂 接 的 PCI 设备 BAR 空间 也 支持 
预 读 时 ， 系 统 软件 需要 从 PCI 桥 “ 可 预 读 ”的 存储 器 空间 中 为 该 PCI 设备 分 配 空间 。 此 时 
PCI 桥 可 以 将 从 PCI 设备 预 读 的 数据 暂 存在 PCI 桥 的 预 读 缓冲 中 。 

PCI 总 线 规定 ， 如 果 下 游 PCI 桥 地 址 空间 支持 预 恋 ， 则 其 上 游 PCI 桥 地 址 空间 既 可 以 支 
持 也 可 以 不 支持 预 读 机 制 。 如 图 3-12 所 示 ， 如 果 PCI 桥 B 管理 的 PCI 子 树 使 用 了 可 预 读 空 
间 时 ，PCI 桥 A 可 以 不 支持 可 预 读 空间 ， 此 时 PCI 桥 A 只 能 使 用 存储 器 读 总 线 事务 读 取 PCI 
设备 ， 而 PCI 桥 B 可 以 将 这 个 存储 器 读 总 线 事务 转换 为 MRL 或 者 MRM 总 线 事务 ， 预 读 PCI 
设备 的 BAR 空间 (如 果 PCI 设备 的 BAR 空间 支持 预 读 ) ， 并 将 预 读 的 数据 保存 在 PCI 桥 B 
的 数据 缓冲 中 。 

但 是 PCI 总 线 不 允许 PCI 桥 A 从 其 “可 预 读 ”的 地 址 空间 中 ,为 PCI 桥 B 的 “不 可 预 
读 ” 区 域 预 留 空间 ， 因 为 这 种 情况 将 影响 数据 的 完整 性 。 

大 多 数 HOST 主 桥 并 不 支持 对 PCI 设备 的 预 读 ， 这 些 HOST 主 桥 并 不 能 向 PCI 设备 发 出 
MRL 或 者 MRM 总 线 事务 。 由 于 在 许多 处 理 器 系统 中 ，PCI 设备 是 直接 挂 接 到 HOST 主 桥 上 
的 ， 如 果 连 HOST 主 桥 也 不 支持 这 种 预 读 ， 即 便 PCI 设备 支持 了 预 读 机 制 也 没有 实际 作用 。 
而 且 如 果 PCI 设备 支持 预 读 机 制 ， 硬 件 上 需要 增加 额外 的 开销 ， 这 也 是 多 数 PCI 设备 不 支持 
预 读 机 制 的 原因 。 

尽管 如 此 本 节 仍 需要 对 HOST 处 理 器 预 读 PCI 设备 进行 探讨 。 假 设 在 图 3-12 所 示 的 处 
理 需 系统 中 ，HOST 主 桥 和 PCI 桥 A 不 支持 预 读 ， 而 PCI 桥 B 支持 预 读 ， 而 且 处 理 器 的 
Cache 行 长 度 为 32B (0x20) 。 

如 果 HOST 处 理 器 对 PCI 设备 的 0x8000- 0000 ~ 0x8000- 0003 这 段 地 址 空间 进行 读 操作 
时 。HOST 主 桥 将 使 用 存储 器 读 总 线 事务 读 取 PCI 设备 的 “0x8000- 0000 ~ 0x8000- 0003 这 段 
地 址 空间 ”， 这 个 存储 器 读 请 求 首先 到 达 PCI 桥 A， 并 由 PCI 桥 A 转发 给 PCI 桥 B。 

PCI 桥 B 发 现 “0x8000- 0000 ~ 0x8000- 0003 这 段 地 址 空间 ”属于 自己 的 可 预 读 存 储 器 
区 域 ， 即 该 地 址 区 域 在 该 桥 的 Prefetchable Memory Base 定义 的 范围 内 ， 则 将 该 存储 器 读 请 求 
转换 为 MRL 总 线 事务 ， 并 使 用 该 总 线 事务 从 PCI 设备 2 中 读 取 0x8000- 0000 ~ 0x8000- 001F 
这 段 数 据 ， 并 将 该 数据 存放 到 PCI 桥 B 的 预 读 缓冲 中 。MRL 总 线 事务 将 从 需要 访问 的 PCI 
设备 的 起 始 地 址 开始 ， 一 直 读 到 当前 Cache 行 边界 。 
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之 后 当 HOST 处 理 器 读 取 0x8000- 0004 ~ 0x8000- 001F 这 段 PCI 总 线 地 址 空间 的 数据 时 ， 
将 从 PCI 桥 B 的 预 读 缓冲 中 直接 获取 数据 ， 而 不 必 对 PCI 设备 进行 读 取 。 

2，PCI 设备 读 取 存 储 器 

PCI 设备 预 读 存 储 器 地 址 空间 时 ， 需 要 使 用 MRL 或 者 MRM 总 线 事务 。 与 MRL 总 线 周 
期 不 同 ，MRM 总 线 事 务 将 从 需要 访问 的 存储 器 起 始 地 址 开始 ， 一 直 读 到 下 一 个 Cache 行 边 
界 为 止 。 

对 于 一 个 Cache 行 长 度 为 32B (0x20) 的 处 理 器 系统 ， 如 果 一 个 PCI 设备 对 主 存储 器 的 
0x1000- 0000 ~ 0x1000- 0007 这 段 存储 器 地 址 空 间 进 行 读 操作 时 ， 由 于 这 段 空间 没有 跨越 
Cache 行 边界 ， 此 时 PCI 设备 将 使 用 MRL 总 线 事务 对 0x1000- 0000 ~0x1000- 001F 这 段 地 址 
区 域 发 起 存储 器 读 请 求 。 

如 果 一 个 PCI 设备 对 主 存 储 器 的 0x1000- 001C ~ 0x1000- 0024 这 段 存 储 器 地 址 空间 进行 
读 操 作 时 ， 由 于 这 段 空间 跨越 了 Cache 行 边界 ， 此 时 PCI 设备 将 使 用 MRM 总 线 事 务 对 
0x1000- 001C ~0x1000- 002F 这 段 地 址 空间 发 起 存储 器 读 请 求 。 

在 图 3-12 所 示 的 例子 中 ，PCI 设备 读 取 0x1000- 001C ~ 0x1000- 0024 这 段 存储 器 地 址 空 
间 时 ， 首 先 将 使 用 MRM 总 线 事务 发 起 读 请 求 ， 该 请 求 将 通过 PCI 桥 B 和 A 最 终 到 达 HOST 
主 桥 。HOST 主 桥 将 从 主 存储 器 中 读 取 0x1000- 001C ~0x1000- 002F 这 段 地 址 空间 的 数据 9 。 
如 果 PCI 桥 A 也 支持 下 游 总 线 到 上 游 总 线 的 预 读 ， 这 段 数 据 将 传递 给 PCI 桥 A; 如 果 PCI 桥 
A 和 B 都 支持 这 种 预 读 ， 这 段 数据 将 到 达 PCI 桥 B 的 预 读 缓冲 。 

如 果 PCI 桥 A 和 B 都 不 支持 预 读 ，0x1000-0024 ~0x1000- 002F 这 段 数 据 将 缓存 在 HOST 
主 桥 中 ，HOST 主 桥 仅 将 0x1000- 001C ~ 0x1000- 0024 这 段 数据 通过 PCI 桥 A 和 B 传递 给 PCI 
设备 。 之 后 当 PCI 设备 需要 读 取 0x1000- 0024 ~ 0x1000- 002F 这 段 数据 时 ， 该 设备 将 根据 不 
同情 况 ， 从 HOST 主 桥 、PCI 桥 A 或 者 B 中 获取 数据 而 不 必 读 取 主 存储 器 。 值 得 注意 的 是 ， 
PCI 设备 在 完成 一 次 数据 传送 后 ， 暂 存在 HOST 主 桥 中 的 预 读数 据 将 被 清除 。PCI 设备 采用 
这 种 预 读 方 式 ， 可 以 极 大 提高 访问 主 存储 器 的 效率 。 

PCI 总 线 规范 有 一 个 缺陷 ， 就 是 目标 设备 并 不 知道 源 设备 究 竟 需 要 读 取 或 者 写 人 多 少 
数据 。 例 如 PCI 设备 使 用 DMA 读 方式 从 存储 器 中 读 取 4 KB 大 小 的 数据 时 ， 只 能 通过 PCI 
发 读 方式 ， 人 

假定 PCI 总 线 一 次 突 发 读 写 只 能 读 取 32 B 大 小 的 数据 ， 此 时 PCI 设备 读 取 4KB 大 小 的 
数据 ， 需 要 使 用 128 次 突 发 周期 才能 完成 全 部 数据 传送 。 而 HOST 主 桥 只 能 一 个 一 个 地 处 理 
这 些 突 发 传送 ， 从 而 存储 器 控制 器 并 不 能 准确 预知 何 时 PCI 设备 将 停止 读 取 数 据 。 在 这 种 情 
况 下 ,合理 地 使 用 预 读 机 制 可 以 有 效 地 提高 PCI 总 线 的 数据 传送 效率 。 

我 们 首先 假定 PCI 设备 一 次 只 能 读 取 一 个 Cache 行 大 小 的 数据 ， 然 后 释放 总 线 ， 之 后 再 
读 取 一 个 Cache 行 大 小 的 数据 。 如 果 使 用 预 读 机 制 ， 虽然 PCI 设备 在 一 个 总 线 周 期 内 只 能 获 
得 一 个 Cache 行 大 小 的 数据 ,但 是 HOST 主 桥 仍然 可 以 从 存储 髓 获得 2 个 Cache 行 以 上 的 数 
据 ， 并 将 这 个 数据 暂 存 在 HOST 主 桥 的 缓冲 中 ， 之 后 PCI 设备 再 发 起 突 发 周期 时 ，HOST 主 
桥 可 以 不 从 存储 器 ， 而 是 从 缓冲 中 直接 将 数据 传递 给 PCI 设备 ， 从 而 降低 了 PCI 设备 对 存储 


G@ 假设 HOST 主 桥 读 取 存储 器 时 支持 预 读 ， 多 数 HOST 主 桥 都 支持 这 种 预 读 。 
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器 访问 的 次 数 ， 提 高 了 整个 处 理 器 系统 的 效率 。 

以 上 描述 仅 是 实现 PCI 总 线 预 读 的 一 个 例子 ， 而 且 仅仅 是 理论 上 的 探讨 。 实 际 上 绝 大 多 
数 半导体 厂商 都 没有 公开 HOST 主 桥 预 读 存 储 器 系统 的 细节 ， 在 多 数 处 理 器 中 ，HOST 主 桥 
以 Cache 行为 单位 读 取 主 存储 器 的 内 容 ， 而 且 为 了 支持 PCI 设备 的 预 读 功能 HOST 主 桥 需要 
设置 必要 的 缓冲 部 件 ， 这 些 缓冲 的 管理 策略 较为 复杂 。 

目前 PCI 总 线 已 经 逐渐 退出 历史 舞台 ， 进 一 步 深 入 研究 PCI 桥 和 HOST 主 桥 ， 意 义 并 不 
太 大 ， 不 过 读者 依然 可 以 通过 学 习 PCI 体系 结构 ， 获 得 处 理 器 系统 中 有 关外 部 设备 的 必要 知 
识 ， 并 以 此 为 基础 ， 学 习 PCIe 体系 结构 。 


3.5 小 结 


本 章 重 点 介绍 了 PCI 总 线 的 数据 交换 。 其 中 最 重要 的 内 容 是 与 Cache 相关 的 PCI 总 线 事 
务 和 预 读 机 制 。 虽 然 与 Cache 相关 的 PCI 总 线 事务 并 不 多 见 ， 但 是 理解 这 些 内 容 对 于 理解 
PCI 和 处 理 器 体系 结构 ， 非常 重要 。 

第 I 篇 的 主体 是 以 PCI 总 线 为 例 ， 说 明 一 个 局 部 总 线 在 处 理 器 系统 中 的 作用 ， 这 也 是 笔 
者 写作 本 书 的 初衷 。PCI 总 线 作为 一 个 局 部 总 线 ， 在 设计 思路 上 ， 与 其 他 局 部 总 线 并 没有 本 
质 的 不 同 。 在 本 篇 中 ， 最 重要 的 内 容 是 局 部 总 线 的 设计 与 实现 方法 ,希望 读者 阅读 本 书 时 ， 
不 要 仅仅 将 目光 锁定 在 PCI 总 线 本 身 。 

本 书 的 第 开篇 内 容 与 第 工 篇 密切 相关 ， 和 硕 望 读者 在 真正 理解 第 工 篇 内 容 的 基础 上 阅读 第 
开篇 。PCIe 总 线 在 继承 PCI 总 线 部 分 内 容 的 基础 上 做 出 了 许多 重大 调整 。 但 是 从 人 处理 器 体 
系 结构 的 角度 来 看 ，PCIe 总 线 依然 是 局 部 总 线 ， 这 条 局 部 总 线 与 PCI 总 线 以 及 其 他 平台 的 
局 部 总 线 相 比 ， 并 不 存在 本 质 的 不 同 。 而 理解 这 些 局 部 总 线 的 关键 ,仍然 是 深入 理解 处 理 器 
的 体系 结构 。 
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第 上 篇 ”PCI Express 体系 
结构 要 还 


虽然 PCI 总 线 取得 了 巨大 的 成 功 ， 但 是 随 着 处 理 器 主 频 的 不 断 提 高 ，PCI 总 线 提供 的 带 
宽 愈 发 显得 捉襟见肘 。PCI 总 线 也 在 不 断 地 进行 升级 ， 其 位 宽 和 频率 从 最 初 的 32 位 /33 MHz 
扩展 到 64 位 /66 MHz， 而 PCI-X 总 线 更 是 将 总 线 频率 提高 到 533 MHz， 能 够 提供 的 最 大 理论 
带宽 为 4263 MB。 但 是 PCI 总 线 仍 无 法 解决 其 体系 结构 中 存在 的 一 些 缺 陷 ， 它 面临 着 一 系列 
挑战 ， 包 括 带宽 、 流 量 控制 和 数据 传送 质量 等 。 
PCI 总 线 的 最 高 工作 频率 为 66 MHz， 最 大 位 宽 为 64 位 ， 从 理论 上 讲 ，PCI 总 线 可 以 提 
供 的 最 大 传输 带宽 为 532 MB。 然 而 PCI 总 线 作为 一 个 共享 总 线 ， 在 其 上 的 所 有 PCI 设备 必 
须 共 享 PCI 总 线 的 带宽 。 同 时 由 于 PCI 总 线 的 协议 开销 ， 导 致 PCI 总 线 可 以 实际 利用 的 数据 
带宽 远 小 于 其 峰值 带宽 。 
PCI 总 线 采 用 提高 总 线 位 宽 和 频率 的 方法 增加 其 传输 带宽 。 但 是 这 种 方法 从 性 能 价格 比 
的 角度 来 看 ， 并 不 是 最 优 的 。 数 据 总 线 位 宽 的 提高 将 直接 影响 芯片 的 生产 成 本 ，64 位 的 PCI 
总 线 接口 需要 设计 者 使 用 更 多 的 芯片 引 脚 ， 从 而 导致 64 位 的 PCI 总 线 接口 芯片 的 价格 远 高 
于 32 位 的 PCI 总 线 接口 芯片 。 与 32 位 PCI 总 线 接 口 相 比 ， 设 计 者 还 需要 使 用 更 多 的 印 制 板 
层 数 来 实现 64 位 PCI 总 线 接口 。 
而 提高 总 线 频率 ， 除 了 给 硬件 工程 师 带 来 了 一 系列 信号 完整 性 的 问题 之 外 ， 更 直接 影响 
PCI 总 线 的 负载 能 力 。 一 条 33 MHz 的 PCI 总 线 最 多 可 以 驱动 10 个 负载 ， 而 66 MHz 的 PCI 总 
线 最 多 只 能 驱动 4 个 负载 。 因 此 片面 提高 PCI 总 线 的 频率 和 位 宽 ， 并 不 能 有 效 地 提高 PCI 总 
线 的 带宽 。 
除 此 之 外 PCI 总 线 在 设计 之 初 并 没有 考虑 服务 质量 的 问题 。 有 些 实时 数据 采集 卡 、 音 频 
或 者 视频 的 多 媒体 应 用 需要 PCI 总 线 提供 额定 带宽 ， 而 PCI 总 线 上 的 设备 只 能 轮流 使 用 PCI 
总 线 ， 当 一 个 设备 长 期 占用 PCI 总 线 时 ， 将 阻止 其 他 PCI 设备 使 用 PCI 总 线 ， 从 而 影响 了 
PCI 总 线 的 传送 质量 。 
基于 以 上 几 个 原因 ，PCI 总 线 在 某 种 程度 上 说 并 不 能 完全 适应 现代 处 理 器 系统 的 需要 ， 
而 使 用 PCIe 总 线 可 以 有 效 解决 PCI 总 线 存 在 的 一 些 问题 。 首 先 PCIe 总 线 可 以 提供 更 大 的 总 
线 带 宽 ，PCIe V3.0 支持 的 最 高 总 线 频率 为 4CHz， 远 高 于 PCI-X 总 线 提供 的 最 高 总 线 频率 。 
其 次 PCIe 总 线 支 持 虚 通 路 (Virtual Channel，VC) 技术 ,优先 级 不 同 的 数据 报 文 可 以 使 用 
不 同 的 虚 通 路 ， 而 每 一 路 虚 通 路 可 以 独立 设置 缓冲 ， 从 而 相对 合理 地 解决 了 数据 传送 过 程 中 
存在 的 服务 质量 问题 。 
PCIe 总 线 由 大 二 层次 组 成 ,包括 事务 层 、 数 据 链 路 层 和 物理 层 。PCIe 总 线 使 用 数据 报 
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文 进行 数据 传递 ， 这 些 数据 报 文 需要 通过 PCIe 总 线 的 这 些 层次 。PCle 总 线 的 这 种 数据 传递 
方式 与 互联 网 使 用 TCP/IP 协议 进行 数据 传递 有 类 似 之 处 。 

实际 上 在 互联 网 中 存在 的 许多 概念 也 存在 于 PCle 总 线 中 ， 如 交换 、 路 由 和 仲裁 机 制 等 ， 
不 过 两 者 实现 上 的 最 大 不 同 在 于 前 者 主要 使 用 软件 程序 实现 其 协议 栈 ， 而 后 者 使 用 硬件 逻辑 
实现 。 

半导体 工艺 的 逐步 提高 ， 使 得 更 多 的 软件 算法 可 以 使 用 硬件 逻辑 来 实现 ， 这 给 从 事 集 成 

电路 设计 的 工程 师 带 来 了 巨大 的 挑战 ， 因 为 他 们 使 用 Verilog/VHDL 程序 编写 的 算法 ， 之 前 
是 使 用 C 或 C++ 这 样 的 高 级 语言 实现 的 。 
PCIe 总 线 在 系统 软件 级 与 PCI 总 线 兼容 ， 基 于 PCI 总 线 的 系统 软件 几乎 可 以 不 经 修改 
直接 移植 到 PCle 总 线 中 。 绝 大 多 数 PCI/PCI-X 总 线 使 用 的 总 线 事务 都 被 PCIe 总 线 保留 ， 而 
PCI 设备 使 用 的 配置 空间 也 被 PCle 总 线 继承 。 基 于 PCI 体系 结构 的 系统 编程 模型 ， 几 乎 可 
以 在 没有 本 质变 化 的 前 提 下 ， 直 接 在 PCIe 体系 结构 中 使 用 。 

但 是 从 体系 系统 的 角度 上 看 ，PCIe 总 线 还 是 增加 了 一 些 新 的 特性 ， 其 中 一 些 特性 不 仅 
仅 是 称呼 上 的 变化 ， 而 且 在 功能 上 也 得 到 了 增强 。 如 在 PCIe 体系 结构 中 出 现 的 RC (Root 
Complex)。RC 的 主要 功能 与 PCI 总 线 中 的 HOST 主 桥 类 似 ， 但 是 在 HOST 主 桥 的 基础 上 增 
加 了 许多 功能 。 

在 不 同 处 理 器 系统 中 ，RC 的 实现 方式 不 同 ， 因 此 仅仅 用 PCle 总 线 控制 器 称呼 RC 是 不 
够 的 ， 实 际 上 PCIe 总 线 规范 对 RC 并 没有 一 个 合适 的 解释 。RC 本 身 也 随处 理 吉 系统 的 不 同 
而 不 同 ， 是 一 个 很 模糊 的 概念 。Intel 并 没有 使 用 PCIe 总 线 控 制 器 ， 而 是 使 用 RC 管理 PCIe 
总 线 。 基 于 深层 次 的 考虑 ， 在 x86 处 理 器 体系 结构 中 ，RC 并 不 仅仅 管理 PCIe 设备 的 数据 访 
问 ， 而 且 还 包含 访问 控制 、 错 误 处 理 和 虚拟 化 技术 等 一 系列 内 容 。 因 此 用 PCIe 总 线 控制 器 
统称 RC， 在 x86 处 理 器 体系 结构 中 并 不 合适 。 

在 PCle 总 线 中 ， 还 有 一 些 特性 与 PCIe 总 线 协 议 的 实现 相关 。 与 PCI 总 线 相 比 ，PCIe 总 
线 使 用 端 到 端的 连接 方式 ， 添 加 流量 控制 机 制 ， 并 对 “访问 序 ” 做 出 了 进一步 优化 。 虽 然 
从 系统 软件 的 角度 来 看 ，PCI 总 线 与 PCIe 总 线 基本 一 致 。 但 是 从 硬件 设计 的 角度 来 看 PCIe 
总 线 完全 不 同 于 PCI 总 线 ， 基 于 PCIe 总 线 各 类 设备 的 硬件 设计 难度 远大 于 基于 PCI 总 线 的 
对 应 设备 的 设计 难度 。 

目前 PCIe 总 线 规范 依然 在 迅猛 发 展 ， 但 并 不 是 所 有 PCIe 设备 都 支持 这 些 在 PCIe 总 线 
的 最 新 规范 中 提 及 的 概念 。 一 般 说 来 ，PCIe 总 线 规范 提出 的 新 概念 ， 最 先 在 x86 处 理 器 系 
统 的 Chipset 和 Intel 设计 的 PCIe 设备 中 出 现 。 
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第 4 全 PCIe 总 线 概述 


随 着 现代 处 理 器 技术 的 发 展 ， 在 互 连 领域 中 ， 使 用 高 速 差分 总 线 蔡 代 并 行 总 线 是 大 势 所 
趋 。 与 单 端 并 行 信号 相 比 ， 高 速 差分 信号 可 以 使 用 更 高 的 时 钟 频 率 ， 使 用 更 少 的 信号 线 ， 完 
成 之 前 需要 许多 单 端 并 行 数据 信号 才能 达到 的 总 线 带 宽 。 

PCI 总 线 使 用 并 行 总 线 结构 ， 在 同一 条 总 线 上 的 所 有 外 部 设备 共享 总 线 带 宽 ， 而 PCIe 
总 线 使 用 了 高 速 差分 总 线 ， 并 采用 端 到 端的 连接 方式 ， 因 此 在 每 一 条 PCIe 链 路 中 只 能 连接 
两 个 设备 。 这 使 得 PCIe 与 PCI 总 线 采 用 的 拓扑 结构 有 所 不 同 。PCIe 总 线 除了 在 连接 方式 上 
与 PCI 总 线 不 同 之 外 ， 还 使 用 了 一 些 在 网 络 通信 中 使 用 的 技术 ， 如 支持 多 种 数据 路 由 方式 ， 
基于 多 通路 的 数据 传递 方式 ， 和 基于 报 文 的 数据 传送 方式 ， 并 充分 考虑 了 在 数据 传送 中 出 现 
的 服务 质量 QoS ( Quality of Service) 问题 。 


4.1 PCle 总 线 的 基础 知识 


与 PCI 总 线 不 同 ，PCIe 总 线 使 用 端 到 端的 连接 方式 ， 在 一 条 PCIe 链 路 的 两 端 只 能 各 连 
接 一 个 设备 ， 这 两 个 设备 互 为 数据 发 送 端 和 数据 接收 端 。PCIe 总 线 除了 总 线 链 路 外 ， 还 具 
有 多 个 层次 ， 发 送 端 发 送 数据 时 将 通过 这 些 层 次 ， 而 接收 端 接收 数据 时 也 使 用 这 些 层次 。 
PCIe 总 线 使 用 的 层次 结构 与 网 络 协议 栈 较为 类 似 。 
4.1.1 端 到 端的 数据 传递 

PCIe 链 路 使 用 “ 端 到 端的 数据 传送 方式 ”， 发 送 端 和 接收 端 中 都 含有 TX (发 送 逻 辑 ) 


和 RX (接收 逻辑 )， 其 结构 如 图 4-1 所 示 。 
发 送 端 接收 端 


Data Linker layer Physical layer Data Linker layer 
A 六 


Logical 


Electrical 


图 4-1 PCIe 总 线 的 物理 链 路 


由 上 图 所 示 ， 在 PCle 总 线 的 物理 链 路 的 一 个 数据 通路 (Lane) 中 ， 有 两 组 差分 信号 ， 

共 4 根 信号 线 。 其 中 发 送 端的 TX 部 件 与 接收 端的 RX 部 件 使 用 一 组 差分 信号 连接 ， 该 链 路 
也 被 称 为 发 送 端的 发 送 链 路 ， 也 是 接收 端的 接收 链 路 ， 而 发 送 端 的 RX 部 件 与 接收 端的 TX 
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部 件 使 用 另 一 组 差分 信号 连接 ， 该 链 路 也 被 称 为 发 送 端的 接收 链 路 ， 也 是 接收 端的 发 送 链 
路 。 一 个 PCIe 链 路 可 以 由 多 个 Lane 组 成 。 

高 速 差 分 信号 电气 规范 要 求 其 发 送 端 串 接 一 个 电容 ， 以 进行 AC 耦合 。 该 电容 也 被 称 为 
AC 耦合 电容 。PCIe 链 路 使 用 差分 信号 进行 数据 传送 ， 一 个 差分 信号 由 D+ 和 D - 两 根 信号 
组 成 ， 信 号 接收 端 通过 比较 这 两 个 信号 的 差 值 ， 判 断 发 送 端 发 送 的 是 逻辑 “1” 还 是 逻辑 
«0, 

与 单 端 信号 相 比 ， 差 分 信号 抗 干扰 的 能 力 更 强 ， 因 为 差分 信号 在 布线 时 要 求 “等 长 ”、 
“等 宽 ”“ 贴 近 ”， 而 且 在 同 层 。 因 此 外 部 干扰 噪声 将 被 “ 同 值 ”而 且 “ 同 时 ”加 载 到 D + 
和 D - 两 根 信 号 上 ， 其 差 值 在 理想 情况 下 为 0， 对 信和 号 的 逻辑 值 产 生 的 影响 较 小 。 因 此 差分 
言 号 可 以 使 用 更 高 的 总 线 频率 。 

此 外 使 用 差分 信号 能 有 效 抑制 电磁 干扰 (EMI，Electro Magnetic Interference ) 。 因 为 差分 
信号 D+ 与 D -距离 很 近 而 且 信和 号 幅 值 相等 、 极 性 相反 ， 这 两 根 线 与 地 线 间 耦合 电磁 场 的 幅 
值 相 等 ， 将 相互 抵消 ， 因 此 差分 信号 对 外 界 的 电磁 干扰 较 小 。 当 然 差分 信号 的 缺点 也 是 显 而 
易 见 的 ， 一 是 差分 信号 使 用 两 根 信号 传送 一 位 数据 ; 二 是 差分 信号 的 布线 相对 严格 一 些 。 

PCIe 链 路 可 以 由 多 条 Lane 组 成 ， 目 前 PCIe 链 路 可 以 支持 1、2、4、8、12、16 和 32 个 
Lane， 即 xl1、x2、x4、x8、x1l2、x16 和 x32 宽度 的 PCIe 链 路 。 每 一 个 Lane 上 使 用 
的 总 线 频率 与 PCIe 总 线 使 用 的 版 本 相关 。 

第 1 个 PCIe 总 线 规范 为 V1.0， 之 后 依次 为 V1.0a，V1.1，V2.0 和 YV2.1。 目 前 PCIe 总 
线 的 最 新 规范 为 V2.1， 而 V3.0 正在 开发 ， 预 计 在 2010 年 发 布 。 不 同 的 PCIe 总 线 规范 所 定 
义 的 总 线 频率 和 链 路 编码 方式 并 不 相同 ， 如 表 4-1 所 示 。 


表 4-1 PCle 总 线 规范 与 总 线 频 率 和 编码 的 关系 


PCIe 总 线 规范 总 线 频率 /CHz 单 Lane 的 峰值 带宽 /( GT/s) 编码 方式 
1.x 1.25 2.5 8/10b 编码 
2.x 2.5 5 8/10b 编码 
3.0 4 8 128/130b 编码 


Qz 这 里 的 总 线 频 率 指 差分 信号 按照 逻辑 “0” 和 “1” 连 续 变 化 时 的 频率 。 


如 上 表 所 示 ， 不 同 的 PCIe 总 线 规范 使 用 的 总 线 频率 并 不 相同 ， 其 使 用 的 数据 编码 方式 
也 不 相同 。PCIe 总 线 V1. x 和 V2.0 规范 在 物理 层 中 使 用 8/10b 编码 ， 即 在 PCIe 链 路 上 的 
10 bit 中 含有 8 位 的 有 效 数据 ; 而 V3. 0 规范 使 用 128/130b 编码 方式 ， 即 在 PCle 链 路 上 的 
130 bit 中 含有 128 位 的 有 效 数 据 。 

V3.0 规范 使 用 的 总 线 频率 虽然 只 有 4 GHz， 但 是 其 有 效 带宽 是 V2. x 的 两 倍 。 有 关 8/10 
编码 的 详细 描述 见 第 7. 3. 3 节 。 下 文 将 以 V2.x 规范 为 例 ， 说 明 不 同 宽度 PCIe 链 路 所 能 提供 
的 峰值 带宽 ， 如 表 4-2 所 示 。 


表 4-2 PCle 总 线 的 峰值 带宽 


PCIe 总 线 的 数据 位 宽 xl x2 x4 x8 x12 x16 x32 
峰值 带宽 /( GT/s) 5 10 20 40 60 80 160 
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x32 的 PCIe 链 路 可 以 提供 160 GT/s 的 链 路 带宽 ， 远 高 于 PCILPCI-X 总 线 所 能 提供 的 峰 
值 带 宽 。 而 即将 推出 的 PCIe V3.0 规范 使 用 4 GHz 的 总 线 频率 ， 将 进一步 提高 PCIe 链 路 的 
峰值 带宽 。 

在 PCIe 总 线 中 ,使 用 GT (Gigatransfer) 计算 PCIe 链 路 的 峰值 带宽 。GT 是 在 PCIe 链 路 
上 传递 的 峰值 带宽 ， 其 计算 公式 为 总 线 频率 x 数据 位 宽 x2。 

在 PCIe 总 线 中 ， 影 响 有 效 带宽 的 因素 有 很 多 ， 因 而 其 有 效 带 宽 较 难 计 算 ， 这 部 分 内 容 
详 见 第 12. 4. 1 节 。 尽 管 如 此 ，PCIe 总 线 提供 的 有 效 带 宽 还 是 远 高 于 PCI 总 线 。PCIe 总 线 也 
有 其 弱点 ， 其 中 最 突出 的 问题 是 传送 延 时 。 

PCIe 链 路 使 用 串 行 方式 进行 数据 传送 ， 然 而 在 芯片 内 部 ， 数 据 总 线 仍 然 是 并 行 的 ， 因 
此 PCIe 链 路 接口 需要 进行 串 并 转换 ， 这 种 串 并 转换 将 产生 较 大 的 延 时 。 除 此 之 外 PCIe 总 线 
的 数据 报 文 需要 经 过 事务 层 、 数 据 链 路 层 和 物理 层 ， 这 些 数据 报 文 在 穿越 这 些 层次 时 ， 也 将 
带 来 延 时 。 本 书 将 在 第 12. 4 节 详 细 讨 论 PCIe 总 线 的 延 时 与 带宽 之 间 的 联系 。 

在 基于 PCle 总 线 的 设备 中 ，x1 的 PCIe 链 路 最 为 常见 ， 而 x 12 的 PCIe 链 路 极 少 出 现 ， 
x4 和 x8 的 PCIe 设备 也 不 多 见 。Intel 通常 在 ICH 中 集成 了 多 个 x 1 的 PCIe 链 路 用 来 连接 
低速 外 设 ， 而 在 MCH 中 集成 了 一 个 x 16 的 PCIe 链 路 用 于 连接 显卡 控制 器 。 而 PowerPC 处 
理 器 通常 能 够 支持 x8、x4、x2 和 xl 的 PCIe 链 路 。 

PCIe 总 线 物理 链 路 间 的 数据 传送 使 用 基于 时 钟 的 同步 传送 机 制 ， 但 是 在 物理 链 路 上 并 
没有 时 钟 线 ，PCle 总 线 的 接收 端 含有 时 钟 恢 复 模 块 CDR (Clock Data Recovery ) ，CDR 将 从 
接收 报 文中 提取 接收 时 钟 ， 从 而 进行 同步 数据 传递 ，PCIe 设备 进行 链 路 训练 时 将 完成 时 钟 
的 提取 工作 ， 详 见 第 8.2 节 。 

值得 注意 的 是 ， 在 一 个 PCle 设备 中 除了 需要 从 报 文 中 提取 时 钟 外 ， 还 使 用 了 REFCLK + 
和 REFCLK - 信号 对 作为 本 地 参考 时 钟 ， 这 个 信号 对 的 描述 见 下 文 。 


4.1.2 了 PCIe 总 线 使 用 的 信号 


PCIe 设备 使 用 两 种 电源 信号 供电 ,分别 是 V.. 与 V,,,， 其 额定 电压 为 3.3 V。 其 中 V.. 为 
主 电源 ，PCIe 设备 使 用 的 主要 逻辑 模块 均 使 用 V.. 供 电 ， 而 一 些 与 电源 管理 相关 的 逻辑 使 用 
Va 供电。 在 PCIe 设备 中 ， 一 些 特殊 的 寄存 器 通常 使 用 V,,. 供 电 ， 如 Sticky Register， 此 时 即 
使 PCIe 设备 的 V,. 被 移 除 ， 这 些 与 电源 管理 相关 的 逻辑 状态 和 这 些 特殊 寄存 器 的 内 容 也 不 会 
发 生 改 变 。 

在 PCle 总 线 中 ， 使 用 V,, 的 主要 原因 是 为 了 降低 功 耗 和 缩短 系统 恢复 时 间 。 因 为 V,, 在 
多 数 情况 下 并 不 会 被 移 除 ， 因 此 当 PCIe 设备 的 V.. 恢 复 后 ， 该 设备 不 必 重 新 恢复 使 用 V,. 供 
电 的 逻辑 ， 从 而 设备 可 以 很 快 地 恢复 到 正常 工作 状 状态 。 

PCIe 链 路 的 最 大 宽度 为 x32， 但 是 在 实际 应 用 中 ，x32 的 链 路 宽度 极 少 使 用 。 在 一 个 
处 理 絮 系统 中 ， 一 般 最 多 提供 x 16 的 PCIe 插 柳 ， 并 使 用 PETp0 ~15 、PETn0 ~15 和 PERp0 ~ 
15、PERn0 ~15 共 64 根 信号 线 组 成 32 对 差分 信号 ， 其 中 16 对 PETxx 信号 用 于 发 送 链 路 ， 
另外 16 对 PERxx 信号 用 于 接收 链 路 。 这 些 差分 信号 的 详细 说 明 见 第 7.3.1 节 。 除 此 之 外 
PCle 总 线 还 使 用 了 下 列 辅 助 信号 。 

1，PERST# 信 和 号 

该 信号 为 全 局 复位 信号 ， 由 处 理 器 系统 提供 ， 处 理 吉 系统 需要 为 PCle 插 槽 和 PCIle 设备 
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提供 该 复位 信号 。PCIe 设备 使 用 该 信号 复位 内 部 逻辑 。 当 该 信号 有 效 时 ，PCle 设备 将 进行 
复位 操作 。PCIe 总 线 定义 了 多 种 复位 方式 ， 其 中 Cold Reset 和 Warm Reset 这 两 种 复位 方式 
的 实现 与 该 信号 有 关 ， 详 见 第 4.1.5 节 。 

2，REFCLK + 和 REFCLK -信号 

在 一 个 处 理 器 系统 中 ， 可 能 含有 许多 PCIe 设备 ， 这 些 设备 可 以 作为 Add-In 卡 与 PCIe 
插 槽 连接 ， 也 可 以 作为 内 置 模块 ， 与 处 理 器 系统 提供 的 PCIe 链 路 直接 相连 ， 而 不 需要 经 过 
PCIe 揪 槽 。PCIe 设备 与 PCIe 搬 覃 都 具有 REFCLK + 和 REFCLK -信号 ， 其 中 PCIe 插 槽 使 用 
这 组 信号 与 处 理 器 系统 同步 。 

在 一 个 处 理 器 系统 中 ,通常 采用 专用 逻辑 向 PCIe 搬 槽 提供 REFCLK + 和 REFCLK - 信 
号 ， 如 图 4-2 所 示 。 其 中 100 MHz 的 时 钟 源 由 晶振 提供 ， 并 经 过 一 个 “一 推 多 ”的 差分 时 
钟 驱动 器 生成 多 个 同 相位 的 时 钟 源 ， 与 PCIe 插 槽 一 一 对 应 连接 。 


处 理 器 系统 


100MHz 


I 
图 4-2 参考 时 钟 与 PCle 持 模 的 连接 


PCIe 插 槽 需要 使 用 参考 时 钟 ， 其 频率 为 100 MHz。 处 理 器 系统 需要 为 每 一 个 PCIe 插 覃 、 
MCH、ICH 和 Switch 提供 参考 时 钟 。 而 且 要 求 在 一 个 处 理 器 系统 中 ， 时 钟 驱动 器 产生 的 参 
考 时 钟 信号 到 每 一 个 PCIe 插 模 ( MCH、ICH 和 Swith) 的 距离 差 在 15in 之 内 。 通 常 信号 的 
传播 速度 接近 光速 ， 约 为 6in/ns， 由 此 可 见 ， 不同 PCIe 插 槽 间 REFCLK + 和 REFCLK -信号 
的 传送 延 时 差 约 为 2. 5 ns。 

当 PCle 设备 作为 Add-In 卡 连接 在 PCIe 插 模 时， 可 以 直接 使 用 PCIe 插 槽 提供 的 
REFCLK + 和 REFCLK -信和 号， 也 可 以 使 用 独立 的 参考 时 钟 。 内 置 的 PCle 设备 与 Add-In 卡 
在 处 理 REFCLK + 和 REFCLK - 信号 时 使 用 的 方法 类 似 ，PCIe 设备 可 以 使 用 独立 的 参考 时 
钟 ， 而 不 使 用 REFCLK + 和 REFCLK -信和 号 。 

在 PCIe 设备 配置 空间 的 Link Control Register 中 ,含有 一 个 “Common Clock Configura- 
tion” 位 。 当 该 位 为 1 时 ， 表 示 该 设备 与 PCIe 链 路 的 对 端 设 备 使 用 “ 同 相 位 ”的 参考 时 钟 ; 
如 果 为 0， 表 示 该 设备 与 PCIe 链 路 的 对 端 设备 使 用 的 参考 时 钟 是 异步 的 。Link Control Regis- 
ter 的 详细 描述 见 第 4.3.2 节 。 

在 PCle 设备 中 , “Common Clock Configuration” 位 的 缺 省 值 为 0， 此 时 PCIe 设备 使 用 的 
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参考 时 钟 与 对 端 设 备 没 有 任何 联系 ，PCIe 链 路 两 端 设备 使 用 的 参考 时 钟 可 以 异步 设置 。 这 
个 异步 时 钟 设置 方法 对 于 使 用 PCIe 链 路 进行 远程 连接 时 尤为 重要 。 

在 一 个 处 理 器 系统 中 ， 如 果 使 用 PCIe 链 路 进行 机 箱 到 机 箱 间 的 互 连 ， 因 为 参考 时 钟 可 
以 异步 设置 ， 机 箱 到 机 箱 之 间 进 行 数据 传送 时 仅 需 要 差分 信号 线 即 可 ， 而 不 需要 参考 时 钟 ， 
从 而 极 大 地 降低 了 连接 难度 。 

3，WAKE# 信 号 

当 PCIe 设备 进入 休眠 状态 ， 主 电源 已 经 停止 供电 时 ，PCIe 设备 使 用 该 信号 向 处 理 器 系 
统 提交 唤醒 请 求 ， 使 处 理 器 系统 重新 为 该 PCIe 设备 提供 主 电源 V.。 在 PCIe 总 线 中 ， 
WAKE# 信 号 是 可 选 的 ， 因 此 使 用 WAKE# 信 号 唤醒 PCIe 设备 的 机 制 也 是 可 选 的 。 值 得 注意 
的 是 产生 该 信号 的 硬件 逻辑 必须 使 用 辅助 电源 V,, 供 电 。 

WAKE# 是 一 个 Open Drain 信号 ， 一 个 处 理 器 的 所 有 PCIe 设备 可 以 将 WAKE# 信 号 进行 
线 与 后 ， 统 一 发 送 给 处 理 器 系统 的 电源 控制 器 。 当 某 个 PCIe 设备 需要 被 唤醒 时 ， 该 设备 首 
先 置 WAKE# 信 号 有 效 ， 然 后 在 经 过 一 段 延 时 之 后 ， 人 处 理 器 系统 开始 为 该 设备 提供 主 电源 
V.。， 并 使 用 PERST# 信 号 对 该 设备 进行 复位 操作 。 此 时 WAKE# 信 号 需要 始终 保持 为 低 ， 当 
主 电 源 V.. 上 电 完 成 之 后 ，PERST# 信 号 也 将 置 为 无 效 并 结束 复位 ，WAKE# 信 号 也 将 随 之 置 
为 无 效 ， 结 束 整 个 唤醒 过 程 。 

PCIe 设备 除了 可 以 使 用 WAKE# 信 号 实现 唤醒 功能 外 ， 还 可 以 使 用 Beacon 信和 号 实现 唤醒 
功能 。 与 WAKE# 信 号 实现 唤醒 功能 不 同 ，Beacon 使 用 In-band 信号 ， 即 差分 信号 D+ 和 D - 
实现 唤醒 功能 。Beacon 信号 DC 平衡， 由 一 组 通过 D+ 和 DD - 信号 生成 的 脉冲 信号 组 成 。 这 
些 脉冲 信号 宽度 的 最 小 值 为 2 ns ， 最 大 值 为 16 ks。 当 PCIe 设备 准备 退出 L2 状态 (该 状态 
为 PCIe 设备 使 用 的 一 种 低 功 耗 状 态 ) 时 ， 可 以 使 用 Beacon 信和 号， 提交 唤 醒 请 求 。 

4，SMCLK 和 SMDAT 信和 号 

SMCLK 和 SMDAT 信号 与 x86 处 理 器 的 SMBus (System Mangement Bus) 相关 。SMBus 
于 1995 年 由 Intel 提出 ，SMBus 由 SMCLK 和 SMDAT 信号 组 成 。SMBus 源 于 了 下 C 总 线 ， 但 是 
与 工 C 总 线 存 在 一 些 差 异 。 

SMBus 的 最 高 总 线 频率 为 100 kHz， 而 了 下 C 总 线 可 以 支持 400 kHz 和 2 MHz 的 总 线 频率 。 
此 外 SMBus 上 的 从 设备 具有 超时 功能 ， 当 从 设备 发 现 主 设备 发 出 的 时 钟 信号 保持 低 电 平 超 
过 35 ms 时 ， 将 引发 从 设备 的 超时 复位 。 在 正常 情况 下 ，SMBus 的 主 设备 使 用 的 总 线 频 率 最 
低 为 10 kHz， 以 避免 从 设备 在 正常 使 用 过 程 中 出 现 超时 。 

在 SMbus 中 ， 如 果 主 设备 需要 复位 从 设备 时 ， 可 以 使 用 这 种 超时 机 制 。 而 了 C 总 线 只 能 
使 用 硬件 信号 才能 实现 这 种 复位 操作 ， 在 PC 总 线 中 ， 如 果 从 设备 出 现 错误 时 ， 单 纯 通过 
设备 是 无 法 复位 从 设备 的 。 

SMBus 还 支持 Alert Response 机 制 。 当 从 设备 产生 一 个 中 断 时 ， 并 不 会 立即 清除 该 中 断 ， 
直到 主 设备 向 0b0001100 地 址 发 出 命令 。 

上 文 所 述 的 SMBus 和 了 C 总 线 的 区 别 还 是 局 限于 物理 层 和 链 路 层 上 ， 实 际 上 SMBus 还 
含有 网 络 层 。SMBus 还 在 网 络 层 上 定义 了 11 种 总 线 协议 ， 用 来 实现 报 文 传递 。 

SMBus 在 x86 处 理 器 系统 中 得 到 了 大 规模 普及 ， 其 主要 作用 是 管理 处 理 器 系统 的 外 部 设 
备 ， 并 收集 外 设 的 运行 信息 ， 特 别 是 一 些 与 智能 电源 管理 相关 的 信息 。PCI 和 PCIe 插 覃 也 
为 SMBus 预 留 了 接口 ， 以 便 PCI/PCIe 设备 与 处 理 器 系统 进行 交互 。 
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在 Linux 系统 中 ，SMBus 得 到 了 广泛 的 应 用 ，ACPI 也 为 SMBus 定义 了 一 系列 命令 ， 用 
于 智能 电池 、 电 池 充 电器 与 处 理 器 系统 之 间 的 通信 。 在 Windows 操作 系统 中 ， 有 关外 部 设备 
的 描述 信息 ， 也 是 通过 SMBus 获得 的 。 

5，JTAG 信号 

JTAG (Joint Test Action Group) 是 一 种 国际 标准 测试 协议 ， 与 IEEE 1149. 1 兼容 ， 主 要 
用 于 芯片 内 部 测试 。 目 前 绝 大 多 数 器 件 都 支持 JTAG 测试 标准 。JTAG 信号 由 TRST#、TCK、 
TDI、TDO 和 TMS 信和 号 组 成 。 其 中 TRST# 为 复位 信号 ; TCK 为 时 钟 信 号 ; TDI 和 TDO 分 别 与 
数据 输入 和 数据 输出 对 应 ; 而 TMS 信号 为 模式 选择 。 

JTAG 允许 多 个 器 件 通 过 JTAG 接口 串联 在 一 起 ， 并 形成 一 个 JTAG 链 。 目 前 FPGA 和 
EPLD 可 以 借用 JTAG 接口 实现 在 线 编 程 (In-System Programming, ISP) 功能 。 处 理 器 也 可 
以 使 用 JTAG 接口 进行 系统 级 调试 工作 ， 如 设置 断 点 、 读 取 内 部 寄存 器 和 存储 器 等 一 系列 操 
作 。 除 此 之 外 JTAG 接口 也 可 用 作 “ 逆 向 工程 ”， 分 析 一 个 产品 的 实现 细节 ， 因 此 在 正式 产 
品 中 ， 一 般 不 保留 JTAG 接口 。 

6. PRSNT1#Fn PRSNT2# 信 和 号 

PRSNT1# 和 PRSNT2# 信 号 与 PCle 设备 的 热 插 拔 相 关 。 在 基于 PCIe 总 线 的 Add-m 卡 中 ， 
PRSNT1# 和 PRSNT2# 信 号 直接 相连 ， 而 在 处 理 器 主板 中 ，PRSNTI1# 信 号 接地 ，PRSNT2# 信 号 
通过 上 拉 电 阻 接 为 高 。PCIe 设备 的 热 插 拔 结构 如 图 4-3 所 示 。 


PCI Express Add-in Card 


一 一 -~ PRS NTI# PRS NT2# — ~ 油 
册 | | | | 


爹 手指 
人 PullUp 
System Board 
T | 
PRSNT1# 1 PRS NT2# 


System Board 


Hot Plug 
Control Logic 
图 4-3 ”PCIe 设备 的 热 插 拔 


当 Add-In 卡 没有 插入 时 ， 人 处 理 器 主板 的 PRSNT2# 信 号 由 上 拉 电 阻 接 为 高 ， 而 当 Add-In 
卡 插入 时 主板 的 PRSNT2# 信 号 将 与 PRSNT1# 信 号 通过 Add-In 卡 连通 ， 此 时 PRSNT2# 信 号 为 
低 。 处 理 器 主板 的 热 插 拔 控制 逻辑 将 捕获 这 个 “ 低 电 平 ” ， 得 知 Add-In 卡 已 经 插入 ， 从 而 触 
发 系统 软件 进行 相应 处 理 。 

Add-In 卡 拨 出 的 工作 机 制 与 插入 类 似 。 当 Add-In 卡 连接 在 处 理 器 主板 时 ， 处 理 器 主板 
的 PRSNT2# 信 号 为 低 ; 当 Add-m 卡 拔 出 后 ， 处 理 器 主板 的 PRSNT2# 信 号 为 高 。 处 理 器 主板 
的 热 插 拔 控制 逻辑 将 捕获 这 个 “高 电 平 ” ， 得 知 Add-In 卡 已 经 被 拔 出 ， 从 而 触发 系统 软件 进 
行 相 应 处 理 。 
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不 同 的 处 理 器 系统 处 理 PCIe 设备 热 拔 插 的 过 程 并 不 相同 ， 在 一 个 实际 的 处 理 器 系统 中 ， 
热 拔 插 设 备 的 实现 也 远 比 图 4-3 中 的 示例 复杂 得 多 。 值 得 注意 的 是 ， 在 实现 热 拔 插 功 能 时 ， 
Add-In 卡 需要 使 用 “长 短 针 ”结构 。 

如 图 4-3 所 示 ，PRSNT1# 和 PRSNT2# 信 和 号 使 用 的 金 手 指 长 度 是 其 他 信号 的 一 半 。 因 此 
当 PCIe 设备 插入 插 槽 时 ，PRSNT1# 和 PRSNT2# 信 号 在 其 他 金 手指 与 PCIe 插 模 完全 接触 ， 并 
经 过 一 段 延 时 后 ， 才 能 与 插 槽 完全 接触 ， 当 PCIe 设备 从 PCIe 插 模 中 拔 出 时 ， 这 两 个 信号 首 
先 与 PCle 搬 覃 断 开 ， 再 经 过 一 段 延 时 后 ， 其 他 信号 才能 与 插 槽 断 开 。 系 统 软件 可 以 使 用 这 
段 延 时 ， 进 行 一 些 热 拔 插 处 理 。 


4.1.3 ”PCIe 总 线 的 层次 结构 


PCle 总 线 采 用 了 串 行 连接 方式 ， 并 使 用 数据 包 (Packet) 进行 数据 传输 ， 采 用 这 种 结构 
有 效 去 除了 在 PCI 总 线 中 存在 的 一 些 边 带 信号 ， 如 INTx 和 PME# 等 信号 。 在 PCIe 总 线 中 ， 
数据 报 文 在 接收 和 发 送 过 程 中 ， 需 要 通过 多 个 层次 ,包括 事务 层 、 数 据 链 路 层 和 物理 层 。 
PCle 总 线 的 层次 结构 如 图 4-4 所 示 。 


PCIe Device A PCIe Device B 


Data Link Layer 


Transaction Layer 


Data Link Layer 


Physical Layer 


Logical Sub-block 
Electrical Sub-block 


RX TX 


Physical Layer 


Logical Sub-block 
Electrical Sub-block 


RX 


= 
1 1 
= 
SA 


图 4-4 ”PCI Express 总 线 的 层次 组 成 结构 


PCIe 总 线 的 层次 组 成 结构 与 网 络 中 的 层次 结构 有 类 似 之 处 ,但 是 PCle 总 线 的 各 个 层次 
都 是 使 用 硬件 逻辑 实现 的 。 在 PCIe 体系 结构 中 ， 数据 报 文 首先 在 设备 的 核心 层 ( Device 
Core) 中 产生 ， 然 后 再 经 过 该 设备 的 事务 层 (Transaction Layer) 、 数 据 链 路 层 ( Data Link 
Layer) 和 物理 层 (Physical Layer) ， 最 终 发 送出 去 。 而 接收 端的 数据 也 需要 通过 物理 层 、 数 
据 链 路 和 事务 层 ， 并 最 终 到 达 核 心 层 。 

1， 事务 层 

事务 层 定义 了 PCle 总 线 使 用 总 线 事 务 ， 其 中 多 数 总 线 事务 与 PCI 总 线 兼容 。 这 些 总 线 
事务 可 以 通过 Switch 等 设备 传送 到 其 他 PCle 设备 或 者 RC。RC 也 可 以 使 用 这 些 总 线 事 务 访 
问 PCIe 设备 。 
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事务 层 接 收 来 自 PCIe 设备 核心 层 的 数据 ， 并 将 其 封装 为 TLP (Transaction Layer Packet ) 
后 ,发 向 数据 链 路 层 。 此 外 事务 层 还 可 以 从 数据 链 路 层 中 接收 数据 报 文 ， 然 后 转发 至 PCIe 
设备 的 核心 层 。 

事务 层 的 一 个 重要 工作 是 处 理 PCIe 总 线 的 “ 序 ”。 在 PCIe 总 线 中 , “ 序 ” 的 概念 非常 
重要 ， 也 较 难 理解 。 在 PCIe 总 线 中 ， 事 务 层 传递 报 文 时 可 以 乱 序 ， 这 为 PCIe 设备 的 设计 制 
造 了 不 小 的 麻烦 。 事 务 层 还 使 用 流量 控制 机 制 保证 PCIe 链 路 的 使 用 效率 。 有 关 事 务 层 的 详 
细 说 明 见 第 6 章 。 

2， 数 据 链 路 层 

数据 链 路 层 保证 来 自发 送 端 事务 层 的 报 文 可 以 可 靠 、 完 整地 发 送 到 接收 端的 数据 链 路 
层 。 来 自 事务 层 的 报 文 在 通过 数据 链 路 层 时 ， 将 被 添加 Sequence Number 前 级 和 CRC 后 级。 
数据 链 路 层 使 用 ACKZNAK 协议 保证 报 文 的 可 靠 传递 。 

PCIe 总 线 的 数据 链 路 层 还 定义 了 多 种 DLLP (Data Link Layer Packet) ，DLLP 产生 于 数 
据 链 路 层 ， 终 止 于 数据 链 路 层 。 值 得 注意 的 是 ，TLP 与 DLLP 并 不 相同 ，DLLP 并 不 是 由 TLP 
加 上 Sequence Number 前 级 和 CRC 后 级 组 成 的 。 数 据 链 路 层 的 详细 描述 见 第 7 章 。 

3， 物 理 层 

物理 层 是 PCIe 总 线 的 最 底层 ， 将 PCIe 设备 连接 在 一 起 。PCIe 总 线 的 物理 电气 特性 决定 
了 PCIe 链 路 只 能 使 用 端 到 端的 连接 方式 。PCIe 总 线 的 物理 层 为 PCIe 设备 间 的 数据 通信 提供 
传送 介质 ， 为 数据 传送 提供 可 靠 的 物理 环境 。 

物理 层 是 PCIe 体系 结构 最 重要 ， 也 是 最 难以 实现 的 组 成 部 分 。PCIe 总 线 的 物理 层 定义 
了 LTSSM (Link Training and Status State Machine) 状态 机 ，PCIe 链 路 使 用 该 状态 机 管理 链 路 
状态 ， 并 进行 链 路 训练 、 链 路 恢复 和 电源 管理 。 

PCIe 总 线 的 物理 层 还 定义 了 一 些 专门 的 “序列 ”， 有 的 书籍 将 物理 层 这 些 “ 序 列 ” 称 
为 PLP (Physical Layer Packet) ， 这 些 序列 用 于 同步 PCIe 链 路 ， 并 进行 链 路 管理 。 值 得 注意 
的 是 PCIe 设备 发 送 PLP 与 发 送 TLP 的 过 程 有 所 不 同 。 

对 于 系统 软件 而 言 ， 物 理 层 几乎 不 可 见 ， 但 是 系统 程序 员 仍 有 必要 较为 深入 地 理解 物理 
层 的 工作 原理 。 本 书 将 在 第 7. 3 节 详 细 描 述 PCIe 总 线 物 理 层 的 实现 机 制 ， 并 在 第 8 章 详细 
介绍 LTSSM 状态 机 。 


4.1.4 PCIe 链 路 的 扩展 


PCIe 链 路 使 用 端 到 端的 数据 传送 方式 。 在 一 条 PCIe 链 路 中 ， 这 两 个 端口 是 完全 对 等 
的 ， 分 别 连 接 发 送 与 接收 设备 ， 而 且 一 个 PCIe 链 路 的 一 端 只 能 连接 一 个 发 送 设备 或 者 接收 
设备 。 因 此 PCIe 链 路 必须 使 用 Switch 扩展 PCIe 链 路 后 ， 才 能 连接 多 个 设备 。 使 用 Switch 进 
行 链 路 扩展 的 实例 如 图 4-5 所 示 。 

在 PCIe 总 线 中 ，Switch? 是 一 个 特殊 的 设备 ， 该 设备 由 1 个 上 游 端 口 和 2 ~n 个 下 游 端 
口 组 成 。PCIle 总 线 规定 ， 在 一 个 Switch 中 可 以 与 RC 直接 或 者 间接 相连 2 的 端口 为 上 游 端 


名 本 节 出 现 的 Switch 指 传统 的 Switch ， 在 MR-IOV 规范 定义 的 Switch 与 此 并 不 相同 ， 详 见 第 13.3.2 节 。 
”所 谓 间接 相连 是 指 通 过 其 他 Switch 再 与 RC 相连 。 
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口 ， 在 PCIe 总 线 中 ，RC 的 位 置 一 般 在 上 方 ， 这 也 是 上 游 端 口 这 个 称呼 的 由 来 。 在 Switch 中 
除了 上 游 端 口外 ， 其 他 所 有 端口 都 被 称 为 下 游 端 口 。 下 游 端口 一 般 与 EP 相连 ,或 者 连接 下 
一 级 Switch 继续 扩展 PCIe 链 路 。 其 中 与 上 游 端 口 相 连 的 PCle 链 路 被 称 为 上 游 链 路 ， 与 下 游 
端口 相连 的 PCIe 链 路 被 称 为 下 游 链 路 。 


LU 
Upstream 链 路 Upstreamyin 


一 一 一 


- 
一 


Downstream 端 口 


Downstream 链 路 1 、 一 Downstream 链 路 2 


ee 


图 4-5 使 用 Switch 扩展 PCIe 链 路 


上 游 链 路 和 下 游 链 路 是 相对 的 概念 。 如 图 4-5 所 示 ，Switch 与 EP2 连接 的 PCle 链 路 ， 
对 于 EP2 而 言 是 上 游 链 路 ， 而 对 Switch 而 言 是 下 游 链 路 。 

图 中 ，Switch 中 含有 3 个 端口 ， 其 中 一 个 是 上 游 端 口 ( Upstream Port)， 而 其 他 两 个 为 
下 游 端 口 (Downstream Port) 。 其 中 上 游 端 口 与 RC 或 者 其 他 Switch 的 下 游 端 口 相连 ， 而 下 
游 端 口 与 EP 或 者 其 他 Switch 的 上 游 端口 相连 。 

在 Switch 中 ， 还 有 两 个 与 端口 相关 的 概念 ， 分 别 是 Egress 端口 和 Ingress 端口 。 这 两 个 
端口 与 通过 Switch 的 数据 流向 有 关 。 其 中 Egress 端口 指 发 送 端口 ， 即 数据 离开 Switch 使 用 
的 端口 ，Ingress 端口 指 接收 端口 即 数据 进入 Switch 使 用 的 端口 。 

Egress 端口 和 Ingress 端口 与 上 下 游 端 口 没 有 对 应 关系 。 在 Switch 中 ， 上 下 游 端 口 可 以 
作为 Egress 端口 ， 也 可 以 作为 Ingress 端口 。 如 图 4-5 所 示 ，RC 对 EP3 的 内 部 寄存 器 进行 写 
操作 时 ，Switch 的 上 游 端 口 为 Ingress 端口 ， 而 下 游 端 口 为 Egress 端口 ; 当 EP3 对 主 存储 器 
进行 DMA 写 操作 时 ， 该 Switch 的 上 游 端 口 为 Egress 端口 ， 而 下 游 端 口 为 mgress 端口 。 

PCle 总 线 还 规定 了 一 种 特殊 的 Switch 连接 方式 ， 即 Crosslink 连接 模式 。 支 持 这 种 模式 
的 Switch ， 其 上 游 端 口 可 以 与 其 他 Switch 的 上 游 端 口 连接 ， 其 下 游 端 口 可 以 与 其 他 Switch 的 
下 游 端 口 连接 。 

PCIe 总 线 提供 CrossLink 连接 模式 的 主要 目的 是 为 了 解决 不 同 处 理 器 系统 之 间 的 互 连 ， 
如 图 4-6 所 示 。 使 用 CrossLink 连接 模式 时 ， 虽 然 从 物理 结构 上 看 ， 一 个 Switch 的 上 /下 游 端 
口 与 另 一 个 Switch 的 上 /下 游 端 口 直 接 相 连 , 但 是 这 个 PCIe 链 路 经 过 训练 后 ， 仍 然 是 一 个 端 
口 作为 上 游 端 口 ， 而 男 一 个 端口 作为 下 游 端 口 。 

处 理 需 系统 1 与 处 理 器 系统 2 间 的 数据 交换 可 通过 Crosslink 进行 。 当 处 理 器 系统 1(2) 
访问 的 PCI 总 线 域 的 地 址 空间 或 者 Requester ID 不 在 处 理 器 系统 1(2) 内 时 ， 这 些 数据 将 被 
Crosslink 端口 接收 ， 并 传递 到 对 端 处 理 器 系统 中 。Crosslink 对 端 接口 的 P2P 桥 将 接收 来 自 另 

一 个 处 理 器 域 的 数据 请 求 ， 并 将 其 转换 为 本 处 理 需 域 的 数据 请 求 。 
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图 4-6 使 用 CrossLink 方式 连接 两 个 处 理 器 系统 

使 用 Crosslink 方式 连接 两 个 拓扑 结构 完全 相同 的 处 理 器 系统 时 ， 仍 然 有 不 足 之 处 。 假 
设 图 4-6 中 的 处 理 器 系统 1 和 2 的 RC 使 用 的 ID 号 都 为 0， 而 主 存储 器 都 是 从 0x0000 - 0000 
开始 编 址 。 当 处 理 器 1 读 取 EP2 的 某 段 PCI 总 线 空间 时 ，EP2 将 使 用 ID 路 由 方式 ， 将 完成 
报 文 传送 给 ID 号 为 0 的 PCI 设备 ， 此 时 是 处 理 器 2 的 RC 而 不 是 处 理 器 1 的 RC 收 到 EP2 的 
数据 。 因 为 处 理 器 1 和 2 的 RC 使 用 的 ID 号 都 为 0，EP2 不 能 区 分 这 两 个 RC。 

综 上 所 述 ， 使 用 Crosslink 方式 并 不 能 完全 解决 两 个 处 理 器 系统 的 互 连 问题 ， 因 此 在 有 
些 Switch 中 支持 非 透 明 桥 结构 。 这 种 结构 与 PCI 总 线 非 透 明 桥 的 实现 机 制 类 似 ， 本 章 对 此 不 
做 进一步 说 明 。 

使 用 非 透 明 桥 仅 解决 了 两 个 处 理 器 间 数 据 通 路 问题 ， 但 是 不 便于 NUMA 结构 对 外 部 设 
备 的 统一 管理 。PCIe 总 线 对 此 问题 的 解决 方法 是 使 用 MR-IOV 技术 ， 该 技术 要 求 Switch 具 
有 多 个 上 游 端 口 分 别 与 不 同 的 RC 互 连 。 目 前 PLX 公司 已 经 可 以 提供 具有 多 个 上 游 端口 的 
Switch ， 但 是 尚未 实现 MR-IOV 技术 涉及 的 一 些 与 虚拟 化 相关 的 技术 。 有 关 MR-IOV 技术 的 
详细 说 明 见 第 13.3. 2 节 。 

即便 MR-IOV 技术 可 以 合理 解决 多 个 处 理 器 间 的 数据 访问 和 对 PCIe 设备 的 配置 管理 ， 
使 用 PCIe 总 线 进行 两 个 或 者 多 个 处 理 器 系统 间 的 数据 传递 仍然 是 一 个 不 小 问题 。 因 为 PCIe 
总 线 的 传送 延 时 仍然 是 制约 其 在 大 规模 处 理 器 系统 互 连 中 应 用 的 重要 因素 。 


4.1.5 PCIe 设备 的 初始 化 


PCle 总 线 规定 了 两 大 类 复位 方式 ， 一 种 是 传统 的 复位 方式 (Conventional Reset) ， 另 一 
种 是 FLR (Function-Level Reset) 方式 。 

其 中 PCIe 总 线 的 传统 复位 方式 由 两 大 类 组 成 ， 一 个 是 Fundamental Reset， 而 另 一 个 是 
Non-Fundamental Reset。Fundamental Reset 方式 包括 Cold 和 Warm Reset 方式 ， 可 以 将 PCIe 
设备 中 的 绝 大 多 数 内 部 寄存 器 和 内 部 状态 都 恢复 成 初始 值 ， 而 Non-Fundamental Reset 方式 指 
Hot Reset 方式 。 

1.， 传统 复位 方式 

传统 复位 方式 分 为 Cold、Warm 和 Hot Reset。PCIe 设备 可 以 根据 当前 设备 的 运行 状态 选 
择 合适 的 复位 方式 ，PCIe 总 线 提供 多 种 复位 方式 的 主要 原因 是 减 小 PCle 设备 的 复位 延 时 。 
其 中 传统 复位 方式 的 延 时 大 于 FLR 方式 。 使 用 传统 复位 方式 时 ，Cold Reset 使 用 的 时 间 最 
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长 ， 而 Hot Reset 使 用 的 时 间 最 短 。 

当 一 个 PCle 设备 的 Vs。 电源 上 电 后 ， 处 理 器 系统 将 置 该 设备 的 PERST# 信 号 为 有 效 ， 此 
时 将 引发 PCle 设备 的 复位 操作 ，PCIe 总 线 将 这 种 复位 方式 称 为 Cold Reset 方式 。Cold Reset 
无 疑 是 一 种 彻底 的 复位 方式 ， 这 种 方式 属于 Fundamental Reset。PCIe 设备 进行 Cold Reset 
时 ， 所 有 使 用 V.. 进 行 供电 的 寄存 器 和 PCIe 端口 逻辑 将 无 条 件 进入 初始 状态 。 但 是 使 用 这 种 
方式 依然 无 法 复位 使 用 V,,, 供 电 的 寄存 器 和 逻辑 ， 这 些 寄存 器 和 旭 辑 只 能 在 处 理 器 完全 下 电 
时 才能 被 彻底 复位 。 

当 PCIe 设备 完成 上 电 过 程 后 ， 也 可 能 重新 进行 Fundamental Reset， 这 种 复位 方式 也 被 
称 为 Warm Reset。PCIe 总 线 并 没有 规定 Warm Reset 的 具体 实现 方式 。 一 个 PCIe 设备 可 以 使 
用 Watchdog 逻辑 ， 对 该 PCle 设备 进行 复位 ， 这 种 方式 就 是 Warm Reset 的 一 种 。Warm Reset 
也 是 一 种 Fundamental Reset。 

除了 Cold 和 Warm Reset 方式 外 ，PCIe 总 线 还 规定 了 另 一 种 复位 方式 ， 即 Hot Reset 方 
式 。 当 PCle 设备 出 现 某 种 异常 时 ， 可 以 使 用 软件 手段 对 该 设备 进行 复位 。 如 系统 软件 将 
Bridge Control Register 的 Secondary Bus Reset 位 置 1 时 ， 该 桥 片 将 Secondary 总 线 上 的 PCI/ 
PCIe 设备 进行 Hot Reset。 对 于 PCI 总 线 ， 当 Secondary Bus Reset 位 置 1 时 ，Secondary 总 线 
将 使 用 RST# 信 号 对 其 下 游 的 PCI 设备 进行 复位 。 而 PCle 总 线 将 通过 TS1 和 TS2 序列 对 下 游 
设备 进行 Hot Reset。 

在 TS1 和 TS2 序列 中 包含 一 个 Hot Reset 位 。 当 下 游 设备 收 到 一 个 TS1 和 TS2 序列 ， 而 
且 其 Hot Reset 位 为 1 时 ， 下 游 设备 将 使 用 Hot Reset 方式 进行 复位 操作 。 有 关 TS1 和 TS2 序 
列 的 详细 描述 见 第 8. 1. 1 节 。 除 此 之 外 当 数 据 链 路 层 向 事务 层 报告 DL_Down 时 ， 该 设备 也 
将 进行 Hot Reset。DL_Down 状态 的 详细 说 明 见 第 7.1.1 节 。 

Hot Reset 方式 并 不 属于 Fundamental Reset。PCIe 设备 进行 Hot Reset 方式 时 ， 也 可 以 将 
PCIe 设备 的 多 数 寄存 器 和 状态 恢复 为 初始 值 。 

当 PCle 设备 完成 传统 复位 方式 后 ， 经 过 一 段 延 时 后 ， 将 开始 进行 PCIe 总 线 的 链 路 训 
练 ， 有 关 链 路 训练 的 详细 说 明 见 第 8 章 。 

2，FLR 方式 

除了 传统 复位 方式 之 外 ，PCIe 总 线 还 提供 了 FLR 方式 。 系 统 软件 填写 某 些 寄存 器 时 ， 
PCIe 设备 将 使 用 FLR 方式 进行 复位 。 支 持 FLR 方式 的 PCIe 设备 需要 在 其 BAR 空间 中 提供 
一 个 寄存 器 ， 当 系统 软件 对 该 寄存 器 的 Function Level Reset 位 写 1 时 ，PCIe 设备 将 使 用 FLR 
方式 复位 PCIe 设备 的 内 部 逻辑 。FLR 方式 对 于 PCIe 设备 是 可 选 的 ，PCIe 总 线 规范 并 没有 定 
义 FLR 方式 的 具体 实现 过 程 ， 但 是 定义 了 FLR 方式 的 适用 范围 。 

在 一 个 处 理 器 系统 中 ， 如 果 某 个 PCle 设备 出 现 故 障 时 ， 系 统 软件 需要 停止 这 个 PCle 设 
备 的 所 有 LO 操作 。 如 一 个 PCIe 网 卡 出 现 故障 时 ， 系 统 软件 需要 对 这 个 PCle 网 卡 的 “与 
PCIe 相关 ”和 “与 网 络 部 分 相关 ”的 逻辑 复位 ， 而 Cold、Warm 和 Hot Reset 无 法 复位 “与 
网 络 部 分 相关 ”的 逻辑 。 此 时 需要 使 用 FLR 方式 合理 复位 这 个 网 卡 。 有 些 不 文 持 FLR 方式 
的 网 卡 ， 也 可 以 使 用 传统 方式 复位 “与 网 络 部 分 相关 ”的 逻辑 。 

在 一 个 大 规模 并 行 处 理 器 系统 中 ， 系 统 软件 使 用 分 区 的 概念 管理 所 有 硬件 资源 ， 包 括 处 
理 器 资源 ， 和 所 有 LO 资源 ， 在 这 些 /0 资源 中 通常 会 包含 PCIe 设备 。 在 这 种 处 理 器 系统 
中 ， 任 务 在 指定 的 分 区 中 运行 ， 当 这 个 任务 执行 完毕 后 ， 系 统 软件 需要 调整 硬件 资源 分 区 。 
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此 时 受到 影响 的 PCIe 设备 需要 使 用 FLR 方式 复位 内 部 逻辑 ， 以 免 造 成 对 新 分 区 的 资源 污 
染 ， 并 保护 之 前 任务 的 运行 结 

此 外 当 系 统 软件 初始 化 与 某 个 PCle 设备 相关 的 软件 协议 栈 时 ， 也 可 能 需要 使 用 FLR 方 
式 复位 PCIe 设备 内 部 的 逻辑 。 

由 上 文 所 示 ，PCIe 设备 使 用 的 FLR 方式 与 传统 复位 方式 有 所 不 同 。 但 是 对 于 一 些 不 文 
持 FLR 方式 的 PCIe 设备 ， 也 可 以 使 用 传统 复位 方式 实现 FLR 方式 。 但 是 采用 这 种 方式 ， 与 
FLR 方式 相 比 ，PCIe 设备 的 初始 化 恢复 时 间 较 长 。 因 为 传统 复位 方式 几乎 复位 了 所 有 “与 
PCIe 链 路 相关 ”的 逻辑 ， 而 FLR 方式 仅 复 位 部 分 “与 PCIe 链 路 相关 ”的 逻辑 。 在 PCIe 总 
线 中 ， 链 路 训练 与 重 训练 的 过 程 较 长 。 

当 PCle 设备 使 用 FLR 方式 进行 复位 时 ， 有 些 与 PCIe 链 路 相关 的 状态 和 寄存 器 并 不 会 被 

复位 ， 如 下 所 示 。 

e Sticky Registers。 与 传统 复位 方式 相同 ，FLR 方式 也 不 能 复位 这 些 寄存 器 ， 但 是 系统 
软件 可 以 对 部 分 Sticky Registers 进行 修改 。 当 V,. 被 移 除 后 ,在 这 些 寄 存 器 中 保存 的 
数据 才 会 丢失 。 

e HwInit 类 型 的 寄存 器 。 在 PCIe 设备 中 ， 有 些 配置 寄存 器 的 属性 为 HwInit， 这 些 寄存 
器 的 值 由 芯片 的 配置 引 脚 决定 ， 或 者 在 上 电 复 位 后 从 EFPROM 中 获取 。Cold 和 Warm 
Reset 可 以 复位 这 些 寄存 器 ， 然 后 从 已 PROM 中 重新 获取 数据 ; 但 是 使 用 FLR 方式 ， 
不 能 复位 这 些 寄存 器 。 

e 此 外 还 有 一 些 特殊 的 配置 寄存 器 不 能 被 FLR 方式 复位 ， 如 Max_Payload_Size 、RCB 和 
一 些 与 电源 管理 、 流 量 控制 和 链 路 控制 直接 相关 的 寄存 器 。 

e FLR 方式 不 会 影响 LTSSM 状态 机 。 


4.2 PCle 体系 结构 的 组 成 部 件 


PCIe 总 线 作 为 处 理 避 系 统 的 局 部 总 线 ， 其 作用 与 PCI 总 线 类 似 ， 主 要 目的 是 为 了 连接 
处 理 器 系统 中 的 外 部 设备 ， 当 然 PCle 总 线 也 可 以 连接 其 他 处 理 器 系统 。 在 不 同 的 处 理 器 系 
统 中 ，PCIe 体系 结构 的 实现 方法 略 有 不 同 。 但 是 在 大 多 数 处 理 器 系统 中 ， 都 使 用 了 RC、 
Switch 和 PCIe-to-PCI 桥 这 些 基本 模块 连接 PCIe 和 PCI 设备 。 在 PCIe 总 线 中 ， 基 于 PCIe 总 
线 的 设备 ， 也 称 为 EP (Endpoint) 。 


4.2.1 基于 了 PCIe 架构 的 处 理 器 系统 


在 不 同 的 处 理 器 系统 中 ，PCle 体系 结构 的 实现 方式 不 尽 相 同 。PCIe 体系 结构 以 Intel 的 
x86 处 理 器 为 蓝本 实现 ,已 深 深 地 烙 下 x86 处 理 器 的 印记 。 在 PCle 总 线 规范 中 ， 有 许多 内 容 
是 x86 处 理 器 独 有 的 ， 也 仅 在 x86 处 理 器 的 Chipset 中 存在 。 在 PCIe 总 线 规范 中 ， 一 些 最 新 
的 功能 也 在 Intel 的 Chipset 中 率先 实现 。 

本 节 将 以 一 个 虚拟 的 处 理 器 系统 A 和 PowerPC 处 理 器 为 例 简 要 介绍 RC 的 实现 ， 并 简单 
归纳 RC 的 通用 实现 机 制 。 

1. 处 理 器 系统 人 

在 有 些 处 理 器 系统 中 ,没有 直接 提供 PCI 总 线 ， 此 时 需要 使 用 PCIe 桥 ， 将 PCIe 链 路 转 
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换 为 PCI 总 线 之 后 ， 才 能 连接 PCI 设备 。 在 PCIe 体系 结构 中 ， 也 存在 PCI 总 线 号 的 概念 ， 
其 编号 方式 与 PCI 总 线 兼 容 。 一 个 基于 PCIe 架构 的 处 理 器 系统 A 如 图 4-7 所 示 。 


人 
RC | 虚拟 PCI 桥 1 jpCI 总 
PCI 总 线 1 、 I a 人 PCI 总 线 0 
~ 一 
PCIe x 16 ~、、 、 4 
Ne 
FSB-to-PCIe 


PCI 总 线 4 
PCIex2 


PCI 总 线 2 
PICex8 


Endpoint 


\ 
、\ 
、、 PCI 总 线 8 


PCI 总 线 5 -~ 
PCiex2 PCIex2 
_-- 一 ”PCI 总 线 7 
PCI 总 线 6 
PCIe x 2 i PCI 设 备 


图 4-7 基于 PCIe 总 线 的 处 理 器 系统 A 


在 图 4-7 的 结构 中 ,处理 絮 系统 首先 使 用 一 个 虚拟 的 PCI 桥 分 离 处 理 器 系统 的 存储 器 域 
与 PCI 总 线 域 。FSB 总 线 下 的 所 有 外 部 设备 都 属于 PCI 总 线 域 。 与 这 个 虚拟 PCI 桥 直 接 相连 
的 总 线 为 PCI 总 线 0。 这 种 架构 与 Intel 的 x86 处 理 器 系统 较为 类 似 。 

在 这 种 结构 中 ，RC 由 两 个 FSB-to-PCle 桥 和 存储 器 控制 器 组 成 。 值 得 注意 的 是 在 图 4-7 
中 ， 虚 拟 PCI 桥 的 作用 只 是 分 离 存 储 器 域 与 PCI 总 线 域 ， 但 是 并 不 会 改变 信和 号 的 电气 特性 。 
RC 与 处 理 需 通过 FSB 连接 ， 而 从 电气 特性 上 看 ，PCI 总 线 0 与 FSB 兼容 ， 因 此 在 PCI 总 线 
0 上 挂 接 的 是 FSB-to-PCle 桥 ， 而 不 是 PCI-to-PCIe 桥 。 

在 PCI 总 线 0 上 有 一 个 存储 器 控制 器 和 两 个 FSB-to-PCIe 桥 。 这 两 个 FSB-to-PCIe 桥 分 别 
推出 一 个 x16 和 x8 的 PCIe 链 路 ， 其 中 x 16 的 PCIe 链 路 连接 显卡 控制 器 (GFX) ， 其 编号 
为 PCI 总线 1; x8 的 PCIe 链 路 连接 一 个 Switch 进行 PCIe 链 路 扩展 。 而 存储 器 控制 器 作为 
PCI 总 线 0 的 一 个 Agent 设备 ， 连 接 DDR 插 覃 或 者 颗粒 。 

此 外 在 这 个 PCI 总 线 上 还 可 能 连接 了 一 些 使 用 “PCI 配置 空间 ”管理 的 设备 ， 这 些 设 备 
的 访问 方法 与 PCI 总 线 兼容 ， 在 x86 处 理 器 的 Chipset 中 集成 了 一 些 内 散 的 设备 。 这 些 内 髓 
的 设备 均 使 用 “PCI 配置 空间 ”进行 管理 ， 包 括 存储 器 控制 器 。 

PCIe 总 线 使 用 端 到 端的 连接 方式 ， 因 此 只 有 使 用 Switch 才能 对 PCIe 链 路 进行 扩展 ， 而 
每 扩展 一 条 PCIe 链 路 将 产生 一 个 新 的 PCI 总 线 号 。 如 图 4-7 所 示 ，Switch 可 以 将 1 个 x8 的 
PCle 端口 扩展 为 4 个 x2 的 PCle 端口 ， 其 中 每 一 个 PCIe 端口 都 可 以 挂 接 EP。 除 此 之 外 
PCIe 总 线 还 可 以 使 用 PCIe 桥 ， 将 PCIe 总 线 转换 为 PCI 总 线 或 者 PCI-X 总 线 ， 之 后 挂 接 PCI/ 
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PCI-X 设备 。 多 数 x86 处 理 器 系统 使 用 这 种 结构 连接 PCIe 或 者 PCI 设备 。 

采用 这 种 结构 ， 有 利于 处 理 器 系统 对 外 部 设备 进行 统一 管理 ， 因 为 所 有 外 部 设备 都 属于 
同一 个 PCI 总 线 域 ， 系 统 软件 可 以 使 用 PCI 总 线 协 议 统一 管理 所 有 外 部 设备 。 然 而 这 种 外 部 
设备 管理 方法 并 非 尽善尽美 ， 使 用 这 种 结构 时 ， 需 要 注意 存储 器 控制 器 使 用 的 寄存 器 也 被 映 
射 为 PCI 总 线 空间 ， 从 而 属于 PCI 总 线 域 ， 而 主 存储 器 (如 DDR 内 存 空 间 ) 仍然 属于 存储 
器 域 。 因 此 在 这 种 结构 中 ， 存 储 器 域 与 PCI 总 线 域 的 划分 并 不 明晰 。 

在 PCIe 总 线 规范 中 并 没有 明确 提 及 PCIe 主 桥 ， 而 使 用 RC 概括 除了 处 理 器 之 外 的 所 有 
与 PCle 总 线 相关 的 内 容 。 在 PCIe 体系 结构 中 ，RC 是 一 个 很 模糊 也 很 混乱 的 概念 。Intel 使 
用 PCI 总 线 的 概念 管理 所 有 外 部 设备 ， 包 括 与 这 些 外 部 设备 相关 的 寄存 器 ， 因 此 在 RC 中 包 
含 一 些 实际 上 与 PCIe 总 线 无 关 的 寄存 器 。 使 用 这 种 方式 有 利于 系统 软件 使 用 相同 的 平台 管 
理 所 有 外 部 设备 ， 也 利于 平台 软件 的 一 致 性 ， 但 是 仍 有 其 不 足 之 处 。 

PCIe 总 线 在 x86 处 理 器 中 始终 处 于 核心 地 位 。Intel 也 借 PCIe 总 线 统一 管理 所 有 外 部 设 
备 ， 并 以 此 构建 基于 PCIe 总 线 的 PC 生态 系统 ( Ecosystem) 。PCI/PCIe 总 线 在 x86 处 理 器 系 
统 中 的 地 位 超 乎 想象 ， 而 且 并 不 仅 局 限于 硬件 层面 。 

2，PowerPC 处 理 器 

PowerPC 处 理 器 挂 接 外 部 设备 使 用 的 拓扑 结构 与 x86 处 理 器 不 同 。 在 PowerPC 处 理 器 
中 ， 虽 然 也 含有 PCI/PCIe 总 线 ， 但 是 仍然 有 许多 外 部 设备 并 不 是 连接 在 PCI 总 线 上 的 。 在 
PowerPC 处 理 器 中 ，PCLPCIe 总 线 并 没有 在 x86 处 理 右 中 的 地 位 。 在 PowerPC 处 理 器 中 ， 还 
含有 许多 内 部 设备 ， 如 TSEC (Three Speed Ethenet Controller) 和 一 些 内 部 集成 的 快速 设备 ， 
与 SoC 平台 总 线 直接 相连 ， 而 不 与 PCILPCIe 总 线 相 连 。 在 PowerPC 处 理 器 中 ，PCI/PCIe 总 
线 控制 器 连接 在 SoC 平台 总 线 的 下 方 。 

Freescale 即将 发 布 的 P4080 处 理 器 ， 采 用 的 互 连 结构 与 之 前 的 PowerPC 处 理 器 有 较 大 的 
不 同 。P4080 处 理 器 是 Freescale 第 一 颗 基 于 E500me 内 核 的 处 理 器 。E500mc 内 核 与 之 前 的 
E500 V2 和 V1 相 比 ， 从 指令 流水 线 结构 、 内 存 管 理 和 中 断 处 理 上 说 并 没有 本 质 的 不 同 。 
E500mc 内 核 内 置 了 一 个 128 KB 大 小 的 L2 Cache， 该 Cache 连接 在 BSB 总 线 上 ; 而 E500 
V1/V2 内 核 中 并 不 含有 L2 Cache， 而 仅 含 有 LI1 Cache， 而 且 与 FSB 直接 相连 。 在 E500mc 内 
核 中 ,还 引入 了 虚拟 化 的 概念 。 

P4080 处 理 需 共 集 成 了 8 个 E500me 内 核 ， 并 使 用 CoreNet 连接 这 8 个 E500me 内 核 ， 由 
CoreNet 互 连 的 处 理 器 使 用 交换 结构 进行 数据 交换 ， 而 不 是 基于 共享 总 线 结构 。 在 P4080 处 
理 器 中 ， 一 些 快 速 外 部 设备 ， 如 DDR 控制 器 、 以 太 网 控制 器 和 PCIZPCIe 总 线 接口 控制 器 也 
是 直接 或 者 间接 地 连接 到 CoreNet 中 ， 在 P4080 处 理 器 ，L3 Cache 也 是 连接 到 CoreNet 中 。 
P4080 处 理 器 的 拓扑 结构 如 图 4-8 所 示 。 

目前 Freescale 并 没有 公开 P4080 处 理 器 的 LI1、L2 和 1L3 Cache 如 何 进 行 Cache 共享 一 
致 性 。 多 数 采用 CoreNet 架构 互 连 的 处 理 器 系统 使 用 目录 表 法 进行 Cache 共享 一 致 性 。 但 
是 P4080 处 理 需 并 不 是 一 个 追求 峰值 运算 的 SMP 处 理 需 系统 ， 而 针对 Data Plane 的 应 用 ， 
因此 P4080 处 理 器 可 能 并 没有 使 用 基于 目录 表 的 Cache 一 致 性 协议 。 在 基于 全 互连网 络 的 
处 理 器 系统 中 如 果 使 用 “类 总 线 监 听 法 ”进行 Cache 共享 一 致 性 ， 将 不 利于 多 个 CPU 共 
享 同 一 个 存储 器 系统 ， 在 Cache 一 致 性 的 处 理 过 程 中 容易 形成 瓶颈 。 
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如 图 4-8 所 示 ，P4080 处 理 器 的 设计 重点 并 不 是 E500mc 内 核 ， 而 是 CoreNet。CoreNet 
内 部 由 全 互连网 络 组 成 ， 其 中 任意 两 个 端口 间 的 通信 并 不 会 影响 其 他 端口 间 的 通信 。 与 
MPC8548 处 理 器 相同 ，P4080 处 理 器 也 使 用 OceaN2 结 构 连 接 PCle 与 RapidIO 接口 。 


E500 mc E500 mc ES00 mc ES00 mc 
Core Core Core Core 
DDR 
128KB 128KB 128KB 128KB SDRAM 
1024KB 存储 器 让 一 一 
CoreNetIM LCache 控制 器 | | 


Coherency Febric 


存储 器 
| 


Frame Manager 


| 
| Endpoint Es 一 一 | Endpont | 


PCI 总 线 


图 4-8 基于 PCle 总 线 的 PowerPC 处 理 器 系统 


在 P4080 处 理 器 中 不 存在 RC 的 概念 ， 而 仅 存 在 PCle 总 线 控制 器 ， 当 然 也 可 以 认为 在 
P4080 处 理 器 中 ，PCIe 总 线 控制 器 即 为 RC。P4080 处 理 器 内 部 含有 3 个 PCIe 总 线 控 制 器 ， 
如 果 该 处 理 器 需要 连接 更 多 的 PCle 设备 时 ， 需 要 使 用 Switch 扩展 PCle 链 路 。 

在 P4080 处 理 器 中 ， 所 有 外 部 设备 与 处 理 器 内 核 都 连接 在 CoreNet 中 ， 而 不 使 用 传统 的 
SoC 平台 总 线 2 进 行 连接 ， 从 而 在 有 效 提 高 了 处 理 器 与 外 部 设备 间 通 信 带 宽 的 同时 ， 极 大 降 
低 了 访问 延 时 。 此 外 P4080 处 理 恬 系统 使 用 PAMU (了 Peripheral Access Management Unit) 分 
隔 外 设 地 址 空间 与 CoreNet 地 址 空间 。 在 这 种 结构 下 ，10 GFZ1 GE 接口 使 用 的 地 址 空间 与 
PCI 总 线 空间 独立 。 

P4080 处 理 器 使 用 的 PAMU 是 对 MPC8548 处理 器 ATMU 的 进一步 升级 。 使 用 这 种 结构 
时 ， 外 部 设备 使 用 的 地 址 空间 、PCI 总 线 域 地 址 空间 和 存储 器 域 地 址 空间 的 划分 更 加 明晰 。 


@ 0CeaN 是 一 个 基于 交叉 矩阵 的 总 线 结构 ， 连 接 在 OCeaN 中 的 外 部 设备 可 以 直接 通信 ， 而 不 相互 干扰 。 
四 这 种 方式 也 可 以 被 认为 是 SoC 平台 总 线 从 共享 总 线 结构 升级 到 Switch 结构 。 
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在 P4080 处 理 右 中 ， 存 储 器 控制 絮 和 存储 器 都 属于 一 个 地 址 空间 ， 即 存储 右 域 地 址 空间 。 此 
外 这 种 结构 还 使 用 OCeaN 连接 SRIO02 和 PCIe 总 线 控制 器 ， 使 得 在 OCeaN 中 的 PCIe 端口 之 
间 呈 可 以 直接 通信 ， 而 不 需要 通过 CoreNet， 从 而 减轻 了 CoreNet 的 负载 。 

从 内 核 互 连 和 外 部 设备 互 连 的 结构 上 看 ， 这 种 结构 具有 和 较 大 的 优势 。 但 是 采用 这 种 结构 
需要 使 用 占用 芯片 更 多 的 资源 ，CoreNet 的 设计 也 十 分 复杂 。 而 最 具 挑 战 的 问题 是 ， 在 这 种 
结构 之 下 ，Cache 共享 一 致 性 模型 的 设计 与 实现 。 

在 Boxboro EX 处 理 器 系统 中 ， 可 以 使 用 QPI 将 多 个 处 理 器 系统 进行 点 到 点 连接 ， 也 可 
以 组 成 一 个 全 互 连 的 处 理 器 系统 。 这 种 结构 与 P4080 处 理 器 使 用 的 结构 类 似 ， 但 是 Boxboro 
EX 处 理 器 系统 包含 的 CPU 更 多 。 

这 种 全 互 连 的 处 理 器 结构 也 许 是 未 来 多 核 处 理 器 发 展 的 趋势 ， 但 是 在 没有 合理 地 解决 多 
核 处 理 器 可 编程 性 问题 之 前 ， 这 种 结构 很 可 能 不 会 被 系统 软件 高 效 地 利用 ， 这 也 是 这 一 结构 
所 面临 的 挑战 。 

3. 基于 PCle 总 线 的 通用 处 理 器 结构 

在 不 同 的 处 理 器 系统 中 ，RC 的 实现 有 较 大 差异 。PCle 总 线 规范 并 没有 规定 RC 的 实现 
细则 。 在 有 些 处 理 器 系统 中 ，RC 相当 于 PCIe 主 桥 ， 也 有 的 处 理 器 系统 也 将 PCIe 主 桥 称 为 
PCIe 总 线 控制 器 。 而 在 x86 处 理 器 系统 中 ，RC 除了 包含 PCIe 总 线 控制 器 之 外 ， 还 包含 一 些 
其 他 组 成 部 件 ， 因 此 RC 并 不 等 同 于 PCIe 总 线 控制 器 。 

如 果 一 个 RC 可 以 提供 多 个 PCIe 端口 ， 这 种 RC 也 被 称 为 多 端口 RC。 如 MPC8572 处 理 
器 的 RC 可 以 直接 提供 3 条 PCIe 链 路 ， 因 此 可 以 直接 连接 3 个 FP。 如果 MPC8572 处 理 器 需 
要 连接 更 多 EP 时 ， 需 要 使 用 Switch 进行 链 路 扩展 。 

而 在 x86 处理 右 系统 中 ，RC 并 不 是 存在 于 一 个 芯片 中 ， 如 在 Montevina 平台 中 ，RC 由 
MCH 和 ICH 两 个 芯片 组 成 。 有 关 Montevina 平台 的 详细 说 明 见 第 5 章 。 本 节 并 不 对 x86 和 
PowerPC 处 理 器 使 用 的 PCle 总 线 结构 做 进一步 讨论 ， 而 只 介绍 这 两 种 结构 的 相同 之 处 。 一 
个 通用 的 、 基 于 PCIe 总 线 的 处 理 右 系统 如 图 4-9 所 示 。 


荆 


Root Complex 


图 4-9 基于 PCIe 总线 的 通用 处 理 器 系统 


图 中 所 示 的 结构 将 PCle 总 线 端 口 、 存 储 器 控制 器 等 一 系列 与 外 部 设备 有 关 的 接口 都 集 
成 在 一 起 ， 并 统称 为 RC。RC 具有 一 个 或 者 多 个 PCIe 端口 ， 可 以 连接 各 类 PCIe 设备 。PCle 


”SRIO 为 串 行 RapidIO。 
四 PCIe 端口 之 间 的 直接 通信 过 程 也 称 为 Peer-to-Peer 传送 方式 。 
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设备 包括 EP (如 网 卡 、 显 卡 等 设备 ) 、Switch 和 PCIe 桥 。 

PCIe 总 线 采用 端 到 端的 连接 方式 ， 每 一 个 PCIe 端口 只 能 连接 一 个 EF， 当然 PCIe 端口 
也 可 以 连接 Switch 进行 链 路 扩展 。 通 过 Switch 扩展 出 的 PCIe 链 路 可 以 继续 挂 接 EP 或 者 其 
他 Switch 。 


4.2.2 RC 的 组 成 结构 


RC 是 PCIe 体系 结构 的 一 个 重要 组 成 部 件 ， 也 是 一 个 较为 混乱 的 概念 。RC 的 提出 与 
x86 处 理 器 系统 密切 相关 。 事 实 上 ， 只 有 x86 处 理 器 才 存 在 PCle 总 线 规范 定义 的 “标准 
RC”， 而 在 多 数 处 理 器 系统 中 ， 并 不 含有 在 PCIe 总 线 规范 中 涉及 的 与 RC 相关 的 全 部 概念 。 

不 同 处 理 器 系统 的 RC 设计 并 不 相同 ， 在 图 4-7 中 的 处 理 器 系统 中 ，RC 包括 存储 器 控 
制 器 、 两 个 FSB-to-PCIe 桥 。 而 在 图 4-8 中 的 PowerPC 处 理 器 系统 中 ，RC 的 概念 并 不 明晰 。 
在 PowerPC 处 理 右 中 并 不 存在 真正 意义 上 的 RC, 而 仅 包含 PCIe 总 线 控制 器 。 

在 x86 处 理 器 系统 中 ，RC 内 部 集成 了 一 些 PCI 设备 、RCRB (RC Register Block) 和 下 - 
vent Collector 等 组 成 部 件 。 其 中 RCRB 由 一 系列 “管理 存储 器 系统 ”的 寄存 器 组 成 ， 而 仅 存 
在 于 x86 处 理 需 中 ; 而 Event Collector 用 来 处 理 来 自 PCIe 设备 的 错误 消息 报 文 和 PME 消息 
报 文 。RCRB 寄存 器 组 属于 PCI 总 线 域 地 址 空间 ，x86 处 理 器 访问 RCRB 的 方法 与 访问 PCI 
设备 的 配置 寄存 器 相同 。 在 有 些 x86 处 理 絮 系统 中 ，RCRB 在 PCI 总线 0 的 设备 0 中 。 

RCRB 是 x86 处 理 器 所 独 有 的 ，PowerPC 处 理 器 也 含有 一 组 “管理 存储 器 系统 ”的 寄存 
器 ， 这 组 寄存 器 与 RCRB 所 实现 的 功能 类 似 。 但 是 在 PowerPC 处 理 器 中 ,该 组 寄存 器 以 
CCSRBAR 寄存 器 为 基地 址 ， 处 理 器 采用 存储 器 映像 方式 访问 这 组 寄存 器 。 

如 果 将 RC 中 的 RCRB 、 内 置 的 PCI 设备 和 Event Collector 去 除 , 该 RC 的 主要 功能 与 
PCI 总 线 中 的 HOST 主 桥 类 似 ， 其 主要 作用 是 完成 存储 器 域 到 PCI 总 线 域 的 地 址 转换 。 但 是 
随 着 虚拟 化 技术 的 引入 ， 尤其 是 引入 MR-IOV 技术 之 后 ，RC 的 实现 变 得 异常 复杂 。 有 关 
MR-IOV 技术 的 详细 说 明 见 第 13. 3. 2 节 。 

但 是 RC 与 HOST 主 桥 并 不 相同 ，RC 除了 完成 地 址 空间 的 转换 之 外 ， 还 需要 完成 物理 
信号 的 转换 。 在 PowerPC 处 理 器 的 RC 中 , 来自 OCeaN 或 者 FSB 的 信号 协议 与 PCIe 总 线 信 
号 使 用 的 电气 特性 并 不 兼容 ， 使 用 的 总 线 事务 也 并 不 相同 ， 因 此 必须 进行 信号 协议 和 总 线 事 
务 的 转换 。 

在 P4080 处 理 器 中 ，RcC 的 下 游 端 口 可 以 挂 接 Switch 扩展 更 多 的 PCIe 端口 ， 也 可 以 只 
接 一 个 EP。 在 P4080 处 理 需 的 RC 中 ,设置 了 一 组 Inbound 和 Outbound 寄存 器 组 ， 用 于 存 
储 器 域 与 PCI 总 线 域 之 间 地 址 空间 的 转换 ; 而 P4080 处 理 器 的 RC 还 可 以 使 用 Outbound 寄存 
器 组 将 PCI 设备 的 配置 空间 直接 映射 到 存储 器 域 中 。PowerPC 处 理 器 在 处 理 PCIL/PCIe 接口 
时 ， 都 使 用 这 组 Inbound 和 Outbound 寄存 器 组 。 

在 P4080 处 理 器 中 ，RC 可 以 使 用 PEX_CONFIG_ADDR 与 PEX_CONFIG_DATA 寄存 器 
对 EP 进行 配置 读 写 ， 这 两 个 寄存 器 与 MPC8548 处 理 器 HOST 主 桥 的 PCI_CONFIG_ADDR 和 
PCL CONFIG_DATA 寄存 器 类 似 ， 本 章 不 再 详细 介绍 这 组 寄存 器 。 

而 x86 处 理 器 的 RC 设计 与 PowerPC 处 理 右 有 较 大 的 不 同 ， 实 际 上 和 大 多 数 人 处理 絮 系 统 
都 不 相同 。x86 处 理 器 赋予 了 RC 新 的 含义 ，PCle 总 线 规范 中 涉及 的 RC 也 以 x86 处 理 器 为 
例 进 行 说 明 ， 而 且 一 些 在 PCIe 总 线 规范 中 出 现 的 最 新 功能 也 在 Intel 的 x86 处 理 器 系统 中 率 
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先 实现 。 在 x86 处 理 需 系统 中 的 RC 实现 也 比 其 他 处 理 絮 系统 复杂 得 多 。 深 入 理解 x86 处 理 
器 系统 的 RC 对 于 理解 PCIe 体系 结构 非常 重要 ， 因 此 本 书 将 以 Montivina 平台 为 例 详细 介绍 
x86 处 理 咒 中 的 RC， 甚 详细 描述 见 第 5$ 章 。 


4.2.3 Switch 


第 4.1.4 节 简单 介绍 了 在 PCle 总 线 中 ， 如 何 使 用 Switch 进行 链 路 扩展 ， 本 节 主 要 介绍 
Switch 的 内 部 结构 。 从 系统 软件 的 角度 上 看 ， 每 一 个 PCIe 链 路 都 占用 一 个 PCI 总 线 号 ,但 
是 一 条 PCIe 链 路 只 能 连接 一 个 PCI 设备 、Switeh 、EP 或 者 PCle 桥 片 。PCIe 总 线 使 用 端 到 端 
的 连接 方式 ， 一 条 PCIe 链 路 只 能 连接 一 个 设备 。 

一 个 PCle 链 路 需要 挂 接 多 个 EP 时 ， 需 要 使 用 Switch 进行 链 路 扩展 。 一 个 标准 Switch 
具有 一 个 上 游 端 口 和 多 个 下 游 端 口 。 上 游 端 口 与 RC 或 者 其 他 Switch 的 下 游 端 口 相连 ， 而 下 
游 端 口 可 以 与 EP、PCIe-to-PCI-XZPCI 桥 或 者 下 游 Switch 的 上 游 端 口 相连 。 

PCIe 总 线 规范 还 支持 一 种 特殊 的 连接 方式 ， 即 Crosslink 连接 方式 。 使 用 这 种 方式 时 ， 
Switch 的 下 游 端 口 可 以 与 其 他 Switch 的 下 游 端 口 直接 连接 ， 上 游 端 口 也 可 以 其 他 Switch 的 上 
游 端口 直接 连接 。 在 PCIe 总 线 规范 中 ，Crosslink 连接 方式 是 可 选 的 ， 并 不 要 求 PCle 设备 一 
定 支 持 这 种 连接 方式 。 

在 PCIe 体系 结构 中 ，Switeh 的 设计 难度 仅 次 于 RC，Switch 也 是 PCIe 体系 结构 的 核心 所 
在 。 而 从 系统 软件 的 角度 上 看 ，Switch 内 部 由 多 个 PCI-to-PCI 桥 组 成 ， 其 中 每 一 个 上 游 和 下 
游 端 口 都 对 应 一 个 虚拟 PCI 桥 。 在 一 个 Switch 中 有 和 多少 个 端口 ， 在 其 内 部 就 有 多 少 个 虚拟 
PCI 桥 ， 就 有 多 少 个 PCI 桥 配 置 空间 。 值 得 注意 的 是 ， 在 Switch 内 部 还 具有 一 条 虚拟 的 PCI 
总 线 ， 用 于 连接 各 个 虚拟 PCI 桥 ， 系 统 软 件 在 初始 化 Switch 时 ， 需 要 为 这 条 虚拟 PCI 总 线 编 
号 。Switch 的 组 成 结构 如 图 4-10 所 示 。 


Upstream 端 口 eg _Upstream 链 路 


Virtual PCI Bus 


Downstream 链 路 


Downstream 端 口 1 加 


Downstream 链 路 


图 4-10 Switch 的 等 效 逻 辑 图 


@ PCIe 总 线 中 的 Switch 与 网 络 应 用 的 Switch 的 功能 并 不 相同 ， 而 与 网 络 应 用 中 的 Route 功能 接近 。 
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Switch 需要 处 理 PCIe 总 线 传输 过 程 中 的 QoS 问题 ?。PCIe 总 线 的 QoS 要 求 PCIe 总 线 区 
别 对 待 优先 权 不 同 的 数据 报 文 ， 而 且 无 论 PCIe 总 线 的 某 一 个 链 路 多 么 拥塞， 优先 级 高 的 报 
文 ， 如 等 时 报 文 (Isochronous Packet) 都 可 以 获得 额定 的 数据 带宽 。 而 且 PCle 总 线 需 要 保 
证 优先 级 较 高 的 报 文 优先 到 达 。PCIe 总 线 采用 虚拟 多 通路 VC 技术 2? ， 并 在 这 些 数据 报 文中 
设 定 一 个 TC (Traffic Class) 标签 ， 该 标签 由 3 位 组 成 ， 将 数据 报 文 根据 优先 权 分 为 8 类 ， 
这 8 类 数据 报 文 可 以 根据 需要 选择 不 同 的 VC 进行 传递 。 

在 PCIe 总 线 中 ， 每 一 条 数据 链 路 上 最 多 可 以 支持 8 个 独立 的 VC。 每 个 VC 可 以 设置 独 
立 的 缓冲 ， 用 来 接收 和 发 送 数据 报 文 。 在 PCIe 体系 结构 中 ，TC 和 VC 紧密 相连 ，TC 与 VC 
之 间 的 关系 是 “多 对 一 ”。 

TC 可 以 由 软件 设置 ， 系 统 软 件 可 以 选择 某 类 TC 由 哪个 VC 进行 传递 。 其 中 一 个 VC 可 
以 传递 TC 不 相同 的 数据 报 文 ， 而 TC 相同 的 数据 报 文 在 指定 一 个 VC 传递 之 后 ， 不 能 再 使 用 
其 他 VC。 在 许多 处 理 器 系统 中 ，Switch 和 RC 仅 支 持 一 个 VC， 而 x86 处 理 器 系统 和 PLX 的 
Switch 中 可 以 支持 两 个 VC。 

下 文 将 以 一 个 简单 的 例子 说 明 如 何 使 用 TC 标签 和 多 个 VC， 以 保证 数据 传送 的 服务 质 
量 。 将 PCIe 总 线 的 端 到 端 数据 传递 过 程 模 拟 为 使 用 汽车 将 一 批 货物 从 A 点 运送 到 B 点 。 如 
果 不 考虑 服务 质量 ， 可 以 使 用 一 辆 汽车 运送 所 有 这 些 货物 ， 经 过 多 次 往返 就 可 以 将 所 有 货 
从 A 点 运 到 B 点 。 但 是 这 样 做 会 耽误 一 些 需 要 在 指定 时 间 内 到 达 B 点 的 货物 。 有 些 货物 ， 
如 一 些 急 救 物资 、EMS 等 其 他 优先 级 别 较 高 的 货物 ， 必 须 及 时 地 从 A 点 运送 到 B 点 。 这 些 
急救 物资 的 运送 应 该 有 别 于 其 他 普通 物资 的 运送 。 

为 此 首先 将 不 同 种 类 的 货物 进行 分 类 ， 将 急救 物资 定义 为 TC3 类 货物 ，EMS 定义 为 
TC2 类 货物 ， 平 信和 定义 为 TC1 类 货物 ， 一般 包 于 定义 为 TC0 类 货物 ， 我们 最 多 可 以 提供 8 
种 TC 类 标签 进行 货物 分 类 。 

之 后 我 们 使 用 8 辆 汽车 ， 分 别 是 VC0 ~ VC7 运送 这 些 货物 ， 其 中 VC7 的 速度 最 快 ， 而 
VC0 的 速度 最 慢 。 当 发 生 堵 车 事件 时 ，VC7 优先 行驶，VC0 最 后 行驶 。 然 后 我 们 使 用 VC3 
运送 急救 物资 ，VC2 运送 EMS ，VC1 运送 平 信 ，VC0 运送 包 庄 ， 当 然 使 用 VC0 同时 运送 平 
信和 包 衷 也 是 可 以 的 ， 但 是 平 信 或 者 包 右 不 能 使 用 一 种 以 上 的 汽车 运送 ， 如 平 信 如 果 使 用 了 
VC1 运输 ， 就 不 能 使 用 VC0。 因 为 TC 与 VC 的 对 应 关系 是 “多 对 一 ”的 关系 。 

采用 这 种 分 类 运输 的 方法 ， 可 以 做 到 在 A 点 到 B 点 带宽 有 限 的 情况 下 ， 仍 然 可 以 保证 
急救 物资 和 EMS 可 以 及 时 到 达 B 点 ， 从 而 提高 了 服务 质量 。 

PCIe 总 线 除 了 解决 数据 传送 的 QoS 问题 之 外 ,还 进一步 考虑 如 何在 链 路 传递 过 程 中 ， 
使 用 流量 控制 机 制 防止 拥塞 。PCIe 总 线 的 流量 控制 机 制 较为 复杂 ， 第 9 章 将 介绍 和 流量 控 
制 相关 的 内 容 。 

在 PCle 体系 结构 中 ，Switch 处 于 核心 地 位 。PCIe 总 线 使 用 Switch 进行 链 路 扩展 ， 在 
Switch 中 ， 每 一 个 端口 对 应 一 个 虚拟 PCI 桥 。 深 入 理解 PCI 桥 是 理解 Switeh 软件 组 成 结构 的 
基础 。 目 前 PCle 总 线 提 出 了 MRA-Switch 的 概念 ， 这 种 Switch 与 传统 Switch 有 较 大 的 区 别 ， 


名 在 PCIe 体系 结构 中 ，RC 和 EP 也 需要 处 理 QoS。 
龟 有 关 多 通路 VC 的 详细 说 明 见 第 9 章 。 
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有 关 这 部 分 内 容 详 见 第 13.3 节 。 
4.2.4 VC 和 端口 仲裁 


在 Switch 中 存在 多 个 端口 ， 其 中 来 自 不 同 Ingress 端口 的 报 文 可 以 发 向 同一 个 Egress 端 
口 ， 因 此 Switch 必须 要 解决 端口 仲裁 和 路 由 选 径 的 问题 。 所 谓 端口 仲裁 指 来 自 不 同 Ingress 
端口 的 报 文 到 达 同 一 个 Egress 端口 的 报 文通 过 顺序 ， 端 口 仲裁 机 制 如 图 4-11 所 示 。 


Ingress Port A Ingress Port B 


图 4-11 PCIe 总线 基于 端口 的 仲裁 机 制 


在 一 个 Switch 中 设 有 仲裁 器 ， 该 仲裁 器 规定 了 数据 报 文通 过 Switch 的 规则 。 在 PCIe 总 
线 中 存在 两 种 仲裁 机 制 ， 分 别 是 基于 VC 和 基于 端口 的 仲裁 机 制 。 端 口 仲裁 机 制 主要 针对 
RC 和 Switch， 当 多 个 mgress 端口 需要 向 同 一 个 Egress 端口 发 送 数据 报 文 时 需要 进行 端口 促 
裁 。 具 体 地 讲 ， 在 PCIe 体系 结构 中 有 三 个 端口 ， 需 要 进行 端口 仲裁 。 
e Switch 的 Egress 端口 。 当 EP A 和 EPB 同时 访问 EP C，D 或 者 DDR-SDRAM 时 ， 需 要 
通过 Switch 的 Egress 端口 C。 此 时 Switch 需要 进行 端口 仲裁 确定 是 EP A 的 数据 报 文 
还 是 EP B 的 数据 报 文 优先 通过 Egress 端口 C。 
e 多 端口 RC 的 Egress 端口 。 当 RC 的 端口 1 和 端口 3 同时 访问 Endpoint C 时 ，RC 的 端 
口 2 需要 进行 端口 仲裁 ,决定 来 自 RC 哪个 端口 的 数据 可 以 率先 通过 。 
。RC 通 往 主 存储 器 的 端口 。 当 RC 的 端口 1、 端口 2 和 端口 3 同时 访问 DDR 控制 器 时 ， 
这 些 数据 报 文 将 通过 RC 的 Egress 端口 4， 此 时 需要 进行 端口 仲裁 。 
在 PCIe 体系 结构 中 ， 链 路 的 端口 仲裁 需要 根据 每 一 个 VC 独立 设置 ， 而且 可 以 使 用 不 
同 的 算法 进行 端口 仲裁 。 
下 文 以 图 4-11 中 ，Switch 的 两 个 Ingress 端口 A 和 B 癌 Egress 端口 C 发 送 数据 报 文 为 
例 ， 简 要 说 明 端 口 仲 裁 和 VC 仲裁 的 使 用 方法 ， 其 过 程 如 图 4-12 所 示 。 
基于 VC 的 仲裁 是 指 发 向 同一 个 端口 的 数据 报 文 ， 根 据 使 用 的 VC 而 进行 仲裁 的 方式 。 
当 来 自 端 口 B 和 端口 A 数据 报 文 (分 别 使 用 VC0 和 VC1 通路 ) 在 到 达 端 口 C 之 前 ,需要 首 
先进 行 端口 仲裁 后 ， 才 能 进行 VC 仲裁 。PCIe 总 线 规定 了 3 种 VC 仲裁 方式 , 分 别 为 Strict 
Priority，RR (Round Robin) 和 WRR (Weighted Round Robin) 算法 。 
720 


Ingress Port Egress Port 


Port Arbiter 


3 

< 加 
SG 呈 
z 上 
忌 中 
吗 
go © 


3utddqeJNDA/DLI 


8urddeIJNDA/DI 
1380T 3$ungno 订 


Port Arbiter 


图 4-12 VC 仲裁 示意 图 


当 使 用 Strict Priority 仲裁 方式 时 ， 发 向 VC7 的 数据 报 文 具有 最 高 的 优先 级 ， 而 发 向 VC0 
的 数据 报 文 优先 级 最 低 。PCIe 总 线 允 许 对 Switeh 或 者 RC 的 部 分 VC 采用 Strict Priority 方式 
进行 仲裁 ， 而 对 其 他 VC 采用 RR 和 WRR 算法 ， 如 VC7 ~ VC4 采用 Strict Priority 方式 ， 而 采 
用 其 他 方式 处 理 VC3 ~ VC0。 

使 用 RR 方式 时 ,所 有 VC 具有 相同 的 优先 级 ， 所 有 VC 轮流 使 用 PCle 链 路 。WRR 方 
式 与 RR 算法 类 似 , 但 是 可 以 对 每 一 个 VC 进行 加 权 处 理 ， 采 用 这 种 方式 可 以 适当 提高 VC7 
的 优先 权 ， 而 将 VC0 的 优先 权 适 当 降低 。 

我 们 假定 Ingress 端口 A 和 Ingress B 问 Egress 端口 C 进行 数据 传递 时 ， 使 用 两 个 VC 通 
路 ， 分 别 是 VCO0 和 VC1。 其 中 标签 为 TC0 ~ TC3 的 数据 报 文 使 用 VC0 传送 ， 而 标签 为 TC4 ~ 
TC7 数据 报 文 使 用 VC1 传送 。 

而 数据 报 文 在 离开 Egress 端口 C 时 ， 需 要 首先 进行 端口 仲裁 ， 之 后 再 通过 VC 仲裁 ， 决 
定 哪个 报 文 优先 传送 。 数 据 报 文 从 Ingress AZB 端口 发 送 到 Egress C 端口 时 ， 将 按照 以 下 步 
又 进行 处 理 。 

(1) 首先 到 达 Ingress AZB 端口 的 数据 报 文 ， 将 根据 该 端口 的 TCZVC 映射 表决 定 使 用 
该 端口 的 哪个 VC 通道 。 如 图 4-12 所 示 ， 假 设 发 向 端口 A 的 数据 报 文 使 用 TC0 ~ TC3 ， 而 发 
向 端口 B 的 数据 报 文 使 用 TC0 ~ TC7 ， 这 些 数据 报 文 在 端口 A 中 仅 使 用 了 VC0 通道 ， 而 在 端 
口 B 中 使 用 了 VC0 和 VC1 两 个 通道 。 

(2) 数据 报 文 在 端口 中 传递 时 ， 将 通过 路 由 部 件 ( Routing Logic) ， 将 报 文 发 送 到 合适 
的 端口 。 如 图 4-12 所 示 ， 端 口 C 可 以 接收 来 自 端 口 A 或 端口 B 的 数据 报 文 。 


钊 “该 表 存 在 于 PCI Express Extended Capabilities 结构 中 ， 详 见 第 4.3.3 节 。 
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(3) 当 数 据 报 文 到 达 端 口 C 时 ， 首 先 需 要 经 过 TCZVC 映射 表 ， 确 定 在 端口 C 中 使 用 哪 
个 VC 通路 接收 不 同类 型 的 数据 报 文 。 

(4) 对 于 端口 C， 其 VC0 通道 可 能 会 被 来 自 端口 A 的 数据 报 文 使 用 ， 也 可 能 会 被 来 自 
端口 B 的 数据 报 文 使 用 。 因 此 在 PCIe 的 Switch 中 必须 设置 一 个 端口 仲裁 器 ， 决 定 来 自 不 同 
数据 端口 的 数据 报 文 如 何 使 用 VC 通路 。 

(5) 数据 报 文通 过 端口 仲裁 后 ， 获 得 VC 通路 的 使 用 权 之 后 ， 还 需要 经 过 Switch 中 的 
VC 仲裁 器 ， 将 数据 报 文 发 送 到 实际 的 物理 链 路 中 。 

PCIe 总 线 规定 ， 系 统 设计 者 可 以 使 用 以 下 三 种 方式 进行 端口 仲裁 。 

(1) Hardware-fixed 仲裁 策略 。 如 在 系统 设计 时 ， 采 用 固化 的 RR 仲裁 方法 。 这 种 方法 
的 硬件 实现 原理 较为 简单 ， 此 时 系统 软件 不 能 对 端口 仲裁 器 进行 配置 。 

(2) WRR 仲裁 策略 ， 即 加 权 的 RR 仲裁 策略 ， 该 算法 和 Time-Based WRR 算法 的 描述 见 
第 4.3.3 节 。 

(3) Time-Based WRR 仲裁 策略 ， 基 于 时 间 片 的 WRR 仲裁 策略 ，PCIe 总 线 可 以 将 一 个 
时 间 段 分 为 若干 个 时 间 片 (Phase) ， 每 个 端口 占用 其 中 的 一 个 时 间 片 ， 并 根据 端口 使 用 这 些 
时 间 片 的 多 少 对 端口 进行 加 权 的 一 种 方法 。 使 用 WRR 和 Time-Based WRR 仲裁 策略 ， 可 以 
在 某 种 程度 上 提高 PCle 总 线 的 QoS。 

PCle 设备 的 Capability 寄存 右 规 定 了 端口 仲裁 使 用 的 算法 ， 详 见 第 4.3.3 节 。 有 些 PCIe 
设备 并 没有 提供 多 种 端口 仲裁 算法 ， 可 能 也 并 不 含有 Capability 寄存 器 。 此 时 该 PCle 设备 使 
用 Hardware-fixed 仲裁 策略 。 


4.2.5 PCIe-to-PCL/PCI-X 桥 片 


本 书 将 PCIe-to-PCIAPCI-X 桥 片 简称 为 PCIe 桥 片 。 该 桥 片 有 两 个 作用 。 

e 将 PCIe 总 线 转换 为 PCI 总 线 ， 以 连接 PCI 设备 。 在 一 个 没有 提供 PCI 总 线 接口 的 处 
理 器 中 ， 需 要 使 用 这 类 桥 片 连接 PCI 总 线 的 外 设 。 许 多 PowerPC 处 理 器 在 提供 PCIe 
总 线 的 同时 ， 也 提供 了 PCI 总 线 ， 因 此 PCIe-to-PCI 桥 片 对 基于 PowerPC 处 理 器 系统 
并 不 是 必须 的 。 

将 PCI 总 线 转换 为 PCle 总 线 (这 也 被 称 为 Reverse Bridge) ， 连 接 PCle 设备 。 一 些 低 
端的 处 理 器 并 没有 提供 PCIe 总 线 ， 此 时 需要 使 用 PCIe 桥 将 PCI 总 线 转换 为 PCle 总 
线 ， 才 能 与 其 他 PCIe 设备 互 连 。 这 种 用 法 初 看 比较 奇怪 ， 但 是 在 实际 应 用 中 ， 确 实 
有 使 用 这 一 功能 的 可 能 。 本 节 主 要 讲解 PCIe 桥 的 第 一 个 作用 。 

PCle 桥 的 一 端 与 PCle 总 线 相 连 ， 而 另 一 端 可 以 与 一 条 或 者 多 条 PCI 总 线 连接 。 其 中 可 
以 连接 多 个 PCI 总 线 的 PCIe 桥 也 被 称 为 多 端口 PCIe 桥 。 

PCIe 总 线 规范 提供 了 两 种 多 端口 PCIe 桥 片 的 扩展 方法 。 多 端口 PCIe 桥 片 指 具 有 一 个 上 
游 端 口 和 多 个 下 游 端口 的 桥 片 。 其 中 上 游 端 口 连接 PCIe 链 路 ， 而 下 游 端 口 推出 PCI 总 线 ， 
连接 PCI 设备 。 这 种 桥 片 的 结构 如 图 4-13 所 示 。 

PCIe 总 线 规范 并 没有 强制 厂商 实现 多 端口 PCIe 桥 的 办 法 。 但 是 值得 注意 的 是 ， 使 用 右 
图 扩展 多 条 PCI 总 线 时 ， 在 多 端口 PCIe 桥 中 包含 一 个 虚拟 的 PCI 总 线 ， 即 Bus 2。 系 统 软件 
对 PCI 总 线 进行 深度 优先 搜索 DFS ( Depth-First Search) 时 ， 对 左 图 和 右 图 的 处 理 有 些 区 别 。 
目前 多 端口 PCle 桥 多 使 用 右 图 进行 端口 扩展 。 
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图 4-13 多 端口 PCIe 桥 的 扩展 方法 


目前 虽然 PCIe 总 线 非常 普及 ， 但 是 仍然 有 许多 基于 PCI 总 线 的 设计 ， 这 些 基于 PCI 总 
线 的 设计 可 以 通过 PCIe 桥 ， 方便 地 接 入 到 PCIe 体系 结构 中 。 目 前 有 多 家 半导体 厂商 可 以 提 
供 PCIe 桥 片 ， 如 PLX、NXP、Tundra 和 Intel。 就 功能 的 完善 和 性 能 而 言 ，Intel 的 PCIe 桥 无 
疑 是 最 佳 选择 ， 而 PLX 和 Tundra 的 PCle 桥 在 租 入 式 系统 中 得 到 了 广泛 的 应 用 。 


4.3 PCle 设备 的 扩展 配置 空间 


本 书 在 第 2. 3. 2 节 讲 述 了 PCI 设备 使 用 的 基本 配置 空间 。 这 个 基本 配置 空间 共 由 64 个 
字 节 组 成 ， 其 地 址 范围 为 0x00 ~ 0x3F， 这 64 个 字 节 是 所 有 PCI 设备 必须 支持 的 。 事 实 上 ， 
许多 PCI 设备 也 仅 支 持 这 64 个 配置 寄存 器 。 

此 外 PCIAPCI-X 和 PCIe 设备 还 扩展 了 0x40 ~0xFF 这 段 配置 空间 ， 在 这 段 空间 主要 存放 
一 些 与 MSI 或 者 MSI-X 中 断 机 制 和 电源 管理 相关 的 Capability 结构 。 其 中 所 有 能 够 提交 中 断 
请 求 的 PCIe 设备 ， 必 须 支持 MSI 或 者 MSI-X Capability 结构。 

PCIe 设备 还 支持 0x100 ~ 0xFFF 这 段 扩展 配置 空间 。PCIe 设备 使 用 的 扩展 配置 空间 最 大 
为 4KB， 在 PCle 总 线 的 扩展 配置 空间 中 ， 存 放 PCIe 设备 所 独 有 的 一 些 Capability 结构 ， 而 
PCI 设备 不 能 使 用 这 段 空间 。 

在 x86 处 理 器 中 ， 使 用 CONFIG_ADDRESS 寄存 器 与 CONFIG_DATA 寄存 器 访问 PCIe 配 
置 空间 的 0x00 ~0xFF， 而 使 用 ECAM 方式 访问 0x000 ~0xFFF 这 段 空 间 ; 而 在 PowerPC 处 理 
器 中 ， 可 以 使 用 CFG_ADDR 和 CFG_DATA 寄存 器 访问 0x000 ~ 0xFFF， 详 见 第 2.2 节 。 

PCI-X 和 PCle 总 线 规范 要 求 其 设备 必须 支持 Capabilities 结构 。 在 PCI 总 线 的 基本 配置 
空间 中 ， 包 含 一 个 Capabilities Pointer 寄存 磊 ， 该 寄存 器 存放 Capabilities 结构 链表 的 头 指针 。 
在 一 个 PCIe 设备 中 ， 可 能 含有 多 个 Capability 结构 ， 这 些 寄存 器 组 成 一 个 链表 ， 其 结构 如 图 
4-14 所 示 。 

其 中 每 一 个 Capability 结构 都 有 唯一 的 ID 号 ， 每 一 个 Capability 寄存 器 都 有 一 个 指针 ， 
这 个 指针 指向 下 一 个 Capability 结构 ， 从 而 组 成 一 个 单 向 链表 结构 ， 这 个 链表 的 最 后 一 个 
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Capability 结构 的 指针 为 0。 


PCI 配 置 空间 0x34, 7b 


Capabilities Pointer 
| pomer | ID 


Poinrer 
Capability X 


Pointer 
Capability Y 


Capability Z 


图 4-14 ”PCIle 总 线 Capability 结构 的 组 成 


一 个 PCIe 设备 可 以 包含 多 个 Capability 结构 ， 包 括 与 电源 管理 相关 、 与 PCIe 总 线 相关 
的 结构 、 与 中 断 请 求 相 关 的 Capability 结构 、PCle Capability 结构 和 PCIe 扩展 的 Capability 结 
构 。 在 本 书 的 其 他 章节 也 将 讲述 这 些 Capability 结构 ， 读 者 在 继续 其 他 章节 的 学 习 之 前 ， 需 
要 简单 了 解 这些 Capability 结构 的 寄存 器 组 成 和 使 用 方法 。 

其 中 读者 需要 重点 关注 的 是 Power Management 和 MSILMSI-X Capability 结构 ，Power 
Management 结构 将 在 本 节 介 绍 ， 而 在 第 10 章 将 详细 讨论 MSL/MSI-X Capability 结构 。 在 
PCIe 总 线 规范 中 ， 定 义 了 较 多 的 Capability 结构 ， 这 些 结构 适用 于 不 同 的 应 用 场合 ， 在 一 个 
指定 的 PCIe 设备 中 ， 并 不 一 定 支 持 本 书 涉及 的 所 有 Capability 结构 。 系 统 软件 程序 员 也 不 需 
要 完全 掌握 PCle 总 线 规范 定义 的 这 些 Capability 结构 。 


4.3.1 了 Power Management Capability 结核 


PCIe 总 线 使 用 的 软件 电源 管理 机 制 与 PCI PM (Power Management) 兼容 。 而 PCI 总 线 
的 电源 管理 机 制 需 要 使 用 Power Management Capability 结构 ， 该 结构 由 一 些 和 PCIAPCI-X 和 
PCIe 总 线 的 电源 管理 相关 的 寄存 絮 组 成 ， 包 括 PMCR (了 Power Management Capabilities Regis- 
ter) 和 PMCSR (Power Management Control and Status Register) ， 其 结构 如 图 4-15 所 示 。 


PMCSR offset=4 


图 4-15 Power Management Capability 结构 


Capability ID 字段 记载 Power Management Capability 结构 的 ID 号 ， 其 值 为 0x01。 在 PCle 
设备 中 ， 每 一 个 Capability 都 有 唯一 的 一 个 ID 号 ， 而 Next Capability Pointer 字段 存放 下 一 个 
Capability 结构 的 地 址 。 

1，PMCR 寄存 器 

PMCR 寄存 器 由 16 位 组 成 ， 其 中 所 有 位 和 字段 都 是 只 读 的 。 该 寄存 器 的 主要 目的 是 记 
录 当 前 PCle 设备 的 物理 属性 ， 系 统 软件 需要 从 PMCR 寄存 器 中 获得 当前 PCIe 设备 的 信息 
后 ， 才 能 对 PMCSR 寄存 需 进 行 修改 。 该 寄存 名 的 结构 如 图 4-16 所 示 ， 其 中 PMCR 寄存 带 
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在 Power Management Capability 结构 的 第 3 ~2 字 节 中 。 


3 27262524 2221201918 16 15 8 


1 7 0 
Next Capability i 
I III | i | 


PME Support Version 
D2 Support PME Clock 
D1 Support RsvdP 
AUX Current Device Specific Initialization (DSD 


图 4-16 Power Management Capabilities 寄存 器 


Version 字段 只 读 ， 记 录 Power Management Capability 结构 的 版 本 号 。 
PME Clock 位 只 读 ， 该 位 没有 被 PCIe 总 线 使 用 ? ， 硬 件 逻 辑 必须 将 其 接 为 0。PCI 设 
备 可 以 使 用 PME# 信 号 通知 设备 改变 电源 状态 ， 在 PCI 总 线 中 ， 如 果 PME# 信 和 号 需要 
使 用 时 钟 (PCI Clock) 时 ， 该 位 为 1; 否则 该 位 为 0。PCI 设备 改变 电源 状态 时 ， 将 
PME# 信 和 号 置 为 有 效 ， 向 处 理 器 系统 提交 请 求 。 系 统 软件 将 这 个 请 求 处 理 完毕 后 ， 将 
通知 这 个 PCI 设备 ， 之 后 该 PCI 设备 将 PME# 信 和 号 置 为 无 效 。 
RsvdP 字段 为 系统 保留 字段 。 
e DSI (Device Specific Initialization) 位 只 读 。 某 些 PCIe 设备 在 上 电 时 处 于 某 种 工作 模 
式 ， 之 后 可 以 通过 重新 配置 运行 在 其 他 工作 模式 中 ， 此 时 该 设备 需要 使 用 DSI 位 表示 
该 设备 可 以 使 用 自 定 义 的 电源 工作 方式 。 
AUX (Auxiliary device) Current 字段 只 读 ， 表 示 PCle 设备 需要 使 用 辅助 电源 的 电 
流 强 度 。PCIle 设备 需要 使 用 两 种 电源 ， 一 个 是 主 电 源 V,.， 另 一 个 是 辅助 电源 
V,.。 当 PCIe 设备 进入 某 种 节能 状态 时 ， 主 电源 将 停止 供电 ， 而 辅助 电源 需要 继 
续 供电 。 该 字段 记录 V,, 使 用 的 电流 强度 ， 其 最 大 值 为 375 mA， 最 小 值 为 0， 即 
不 使 用 V,,。 
D2 和 D1 位 只 读 。D2 位 为 1 表示 PCIe 设备 支持 D2 状态 ; D1 位 为 1 表示 PCIe 设备 支 
持 D1 状态 。PCI PM 机 制 规定 PCle 设备 可 以 支持 四 种 状态 .分别 为 D0 ~ D3 状态 。 
PCle 设备 处 于 D0 状态 时 的 功 耗 最 高 ， 处 于 D3 状态 时 最 低 。 多 数 支 持 电源 管理 的 
PCIe 设备 仅 支 持 D0 状态 和 D3 状态 ， 而 Dl 和 D2 状态 可 选 ， 有 关 这 四 种 状态 的 详细 
说 明 见 第 8.4.1 节 。 
PME Support 字段 只 读 ， 存 放 PCIle 设备 文 持 的 电源 状态 。 第 27 位 为 1 时 ， 表 示 PCle 
设备 处 于 D0 状态 时 ， 可 以 发 送 PME 消息 ; 第 28 位 为 1 时 ， 表 示 PCIe 设备 处 于 D1 
状态 时 ， 可 以 发 送 PME 消息 ; 第 29 位 为 1 时， 表示 PCIe 设备 处 于 D2 状态 时 可 以 发 
送 PME 消息 ; 第 30 位 为 1 时， 表示 PCIe 设备 处 于 D3,, 状态 时 可 以 发 送 PME 消息 ; 
第 31 位 为 1 时 ， 表 示 PCIe 设备 处 于 D3 状态 时 可 以 发 送 PME 消息 。 

2. PMCSR 寄存 器 

系统 软件 可 以 通过 操作 PMCSR 寄存 器 ， 完 成 PCIe 设备 电源 状态 的 迁移 。 该 寄存 器 的 结 
构 如 图 4-17 所 示 。 


四 PCIe 总 线 使 用 消息 报 文 (PME Message) 进行 电源 管理 ，PCle 设备 不 支持 PME# 信 号 。 
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Bus Power/Clock 
Control Enable 


B2/B3 Support 


Power State 
RsvdP 
No_Soft_Reset 
PME Enable 
Data Select 
Data Scale 
PME Status 


图 4-17 Power Management Status/ Control 寄存 器 


e Power State 字段 可 读 写 ， 该 字段 记录 PCIe 设备 所 处 的 状态 。“0b00” 与 D0 状态 对 应 ; 
“0b01” 与 D1 状态 对 应 ; “0b10” 与 D2 状态 对 应 ;“0b11” 与 D3 状态 对 应 。 系 统 软 
件 改 变 该 字段 时 ，PCIe 设备 将 进行 电源 状态 迁移 。 
No_Soft_Reset 位 只 读 。 如 果 该 位 为 1，PCIe 设备 从 D3， 状态 迁移 到 D0 状态 时 ， 并 不 
需要 进行 内 部 复位 操作 ， 有 关 PCIe 设备 配置 的 现场 信息 可 以 由 PCIe 设备 的 硬件 逻辑 
保存 ， 此 时 当 设 备 从 D0 状态 迁移 到 D3, ,状态 时 ， 不 需要 系统 软件 的 干预 ， 其 现场 由 
PCIe 设备 主动 保存 ; 而 该 位 为 0 时 ，PCIe 设备 从 D3, .状态 迁移 到 D0 状态 时 ， 需 要 进 
行 复位 操作 ， 因 此 系统 软件 在 通过 改变 Power State 字段 使 PCIe 设备 从 D0 状态 迁移 到 
D31, 状 态 之 前 ， 需 要 保存 PCIe 设备 的 相关 上 下 文 ， 当 PCIe 设备 从 D3,, 状 态 迁 移 到 
D0 状态 时 ， 再 进行 上 下 文 的 恢复 操作 。 
PME Enable 位 ， 可 读 写 。 该 位 为 1 时 ，PCIe 设备 可 以 发 送 PME 消息 ;如果 为 0, 不 
可 以 发 出 PME 消息 。 当 PCIe 设备 处 于 D3 状态 不 能 发 送 PME 消息 时 ， 该 位 由 系统 
软件 设 为 0。 支持 远程 唤醒 模式 的 网 卡 需 要 将 此 位 使 能 。 
Data Select 字段 可 读 写 ， 而 Data Scale 字段 和 Data 字段 只 读 。 系 统 软件 通过 这 组 字段 ， 
读 取 PCIe 设备 处 于 不 同 状态 时 的 功 耗 。 首 先 系 统 软件 置 Data Select 字段 为 0 ~7 之 间 
的 数值 ， 其 中 0 和 4 与 D0 状态 对 应 ，1 和 5 与 D1 状态 对 应 ，2 和 6 与 D2 状态 对 应 ， 
3 和 7 与 D3 状态 对 应 ; 之 后 系统 软件 读 取 Data Select 和 Data 字段 并 以 此 计算 在 不 同 
状态 下 PCIe 设备 的 功 耗 。 其 中 Data Scale 字段 记录 精度 ， 为 0 时 表示 该 PCIe 设备 不 
支持 这 组 字段 9 ; 为 1 时 表示 Data 字段 的 数据 需要 乘 以 0.1 后 ， 才 能 到 得 PCIe 设备 
的 功 耗 ， 其 单位 为 W; 为 2 时 表示 Data 字段 的 数据 需要 乘 以 0.01; 为 3 时 表示 Data 
字段 的 数据 需要 乘 以 0. 001。 
PME Status 位 ， 该 位 只 读 且 写 1 清除 ， 对 此 位 写 0 无 意义 。 该 位 为 1 时 表示 PCle 设备 
可 以 正常 发 送 PME 消息 ， 系 统 软件 对 此 位 写 1 时 ， 将 该 位 清除 。 该 位 由 硬件 逻辑 控 
制 ， 系 统 软件 仅 能 清除 该 位 ， 而 不 能 将 该 位 置 1 。 
e PCle 总 线 没有 实现 B2/B3 Support 和 Bus Power/Clock Control Enable 位 。 在 PCI 总 线 
中 ，Bus Power/Clock Control Enable 位 为 1 时 使 能 PCI 总 线 的 电源 和 时 钟 管 理 ， 为 0 
时 表示 关闭 ; 当 Bus Power/Clock Control Enable 位 为 1 时 ，B2/B3 Support 位 才 有 意 
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如 果 Data 字段 为 0， 也 表示 该 PCIle 设备 不 支持 功 耗 的 测量 。 


义 ，B2/B3 Support 位 为 1 时 表示 ， 当 PCI 桥 片 处 于 D3,, 状 态 时 ， 这 个 桥 片 将 停止 为 
Secondary PCI 总 线 提供 时 钟 ， 为 0 时 表示 ， 当 PCI 桥 片 处 于 D3%, 状 态 时 ,将 停止 为 
Secondary PCI 总 线 提供 电源 。 


4. 3. 2 PCI Express Capability 结构 


PCI Express Capability 结构 存放 一 些 和 PCIe 总 线 相关 的 信息 ， 包 括 PCIe 链 路 和 插 模 的 
言 息 。 有 些 PCIe 设备 不 一 定 实现 了 PCI Express Capability 结构 中 的 所 有 寄存 器 ， 或 者 并 没有 
提供 这 些 配置 寄存 器 供 系 统 软件 访问 。 

PCI Express Capability 结构 的 部 分 寄存 器 及 其 相应 字段 与 硬件 的 具体 实现 细节 相关 ， 本 
节 仅 介绍 其 中 一 些 系统 软件 程序 员 需 要 了 解 的 字段 。 在 该 结构 中 ，Cap ID 字段 为 PCI Ex- 
presss Capability 结构 使 用 的 ID 号 ， 其 值 为 0x10。 而 Next Capability 字段 存放 下 一 个 Capabili- 
ty 寄存 带 的 地 址 。PCI Express Capability 结构 由 PCI Express Capability、Device Capability、 
Device Control 、Device Status 、Link Capabilities 、Link Status 、Link Control 、Slot Capabilities 和 
Slot Status 等 一 系列 寄存 器 组 成 。 本 闻 仅 介绍 该 结构 中 党 用 的 寄存 器 。PCI Express Capability 
的 组 成 结构 如 图 4-18 所 示 。 


加 8 PCI Express Capability Register Next Cap Pointer Cap ID 
- | E 
oa | 3 Device Capabilities 
有 | 三 | = fa - 
3| als [S 
本 三 | 9 | > i 
当 相 人 2 Link Capabilities 
“0 Link Control 
| =| 
包 SE, SS Slot Capabilities 
二 { Root Capabilities 
\ 图 Root Status 
: 癌 - 和 
呈 记名 { Device Capabilities 2 
号 3 Device Status 2 Device Control 2 
呈 EB Link Capabilities 2 
二 8 
区 3 \ Link Status 2 Link Control 2 
Cn 
5 所 | Slot Capabilities 2 


Slot Status 2 Slot Control 2 


图 4-18 PCI Express Capability 结构 的 组 成 结构 


1，PCI Express Capability 寄存 器 

PCI Express Capability 寄存 器 存放 与 PCle 设备 相关 的 一 些 参数 ， 包 括 版 本 号 信息 、 端 口 
描述 ， 当 前 PCIe 链 路 是 与 PCIe 插 槽 直接 连接 还 是 作为 内 置 的 PCIe 设备 等 一 系列 信息 。 这 
些 参 数 的 详细 定义 如 表 4-3 所 示 。 


表 4-3 PCI Express Capability 寄存 器 
Bits 定义 描述 


存放 PCIe 设备 的 版 本 号 ， 如 果 该 设备 基于 PCle 总 线 规范 2. x， 该 字段 的 值 为 
0x2; 如 果 该 设备 基于 PCle 总 线 规范 1. x， 该 字段 的 值 为 0x1。 该 字段 只 读 


3: 0 Capability Version 
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( 续 ) 


Bits 


前 
be 


描 述 
存放 PCIe 设备 的 属性 。0b0000 对 应 PCIe 总 线 的 EP; 0b0001 对 应 Legacy PCIe 
总 线 的 EP; 0b0100 对 应 RC 的 Root port; 0b0101 对 应 Switch 的 上 游 端口 ; 0b0110 
7: 4 Device/ Port Type 对 应 Switch 的 下 游 端口 ; 0b0111 对 应 PCIe 桥 片 ; 0b1000 对 应 PCI/PCI-X-to-PCle 
桥 片 ; 0b1001 对 应 RC 中 集成 的 EP; 0b1010 对 应 RC 中 的 Event Collector? 。 该 字 
段 只 读 
8 Slot Implemented 当 该 位 为 1 时 ， 表 示 和 当前 端口 相连 的 是 一 个 PCIe 插 模 ， 而 不 是 PCIe 设备 


当 PCI Express Capability 结构 的 Slot Status 寄存 器 或 者 Root Status 寄存 器 的 状态 
发 生变 化 时 ， 该 PCIe 设备 可 以 通过 MSI/MSI-X 中 断 机 制 向 处 理 器 提交 中 断 请 求 。 
该 字段 存放 MSI/MSI-X 中 断 机 制 需要 的 Message Data 字段 。 有 关 MSI 中 断 机 制 的 
详细 描述 见 第 10 章 


13. 9 Interrupt Message Number 


( Event Collector 是 RC 集成 的 一 个 功能 部 件 ， 进 行 错误 检查 和 处 理 PME 消息 ， 该 部 件 可 选 。 


2.， Device Capability 寄存 器 
该 寄存 器 的 第 2: 0 字段 为 “Max_Payload_Size Supported” 字 段 ， 该 字段 存放 该 设备 文 
持 的 Max_Payload_Size 参数 的 大 小 ， 该 字段 只 读 ， 如 表 4-4 所 示 。 


表 4-4 PCle 设备 支持 的 Max_Payload_Size 


Bit [2: 0] 支持 的 Max_Payload_Size 
0b000 128B 
0b001 256B 
0b010 512B 
0b011 1024B 
0b100 2048B 
0b101 4096B 


“Max_Payload_Size Supported” 字段 决 定 了 一 个 TLP 报 文 可 能 使 用 的 最 大 有 效 负载 ， 
PCIe 总 线 规定 Max_Payload_Size 参数 的 最 大 值 为 4096B ， 但 是 许多 PCIe 设备 并 不 一 定 能 够 
支持 这 么 大 的 有 效 负载 。 在 实际 应 用 中 ， 一 个 PCIe 设备 支持 的 Max_Payload_Size 参数 通常 
为 128B、256B 或 者 512B。 

“Max_Payload_Size Supported” 字段 仪表 示 该 PCIe 设备 允许 使 用 的 Max_Payload_Size 参 
数 。 在 Device Control 寄存 需 中 ， 还 有 一 个 Max_Payload_Size 参数 ， 该 字段 可 以 由 软件 设置 ， 
表示 实际 使 用 的 Max_Payload_Size 参数 大 小 。 

值得 注意 的 是 ， 在 PCIe 设备 中 ，“Max_Payload_Size Supported” 参数 和 Max_Payload_ 
Size 参数 并 不 相同 ， 前 者 是 一 个 PCle 设备 能 够 支持 的 最 大 Payload 的 大 小 ， 而 后 者 是 链 路 两 
端的 PCIe 设备 进行 协商 ， 确 定 的 实际 使 用 值 。 有 关 这 两 个 参数 的 详细 说 明 见 第 6.4 节 。 

该 寄存 器 的 第 4 ~3 位 为 Phantom Functions Supported 字段 ， 该 字段 只 读 。 当 Device Con- 
trol 寄存 器 的 Phantom Functions Enable 位 为 1 时 ， 该 字段 才 有 意义 。 

e 该 字段 为 0b00 时 表示 不 支持 Phantom 功能 ，PCle 设备 不 能 使 用 Function Number 扩展 

数据 报 文 的 Tag 字段 。 

e 该 字段 为 0b01 时 表示 支持 Phantom 功能 ，PCIe 设备 可 以 使 用 Function Number 的 最 高 
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位 扩展 TLP 的 Tag 字段 。 
e 该 字段 为 0b10 时 表示 支持 Phantom 功能 ，PCIe 设备 可 以 使 用 Function Number 的 最 高 
两 位 扩展 TLP 的 Tag 字段 。 
e 该 字段 为 0b11 时 表示 支持 Phantom 功能 ，PCIe 设备 可 以 使 用 Function Number 的 全 部 
三 位 扩展 TLP 的 Tag 字段 。 
该 寄存 器 的 第 $ 位 为 Extended Tag Field Supported 位 ， 该 位 为 1 时 表示 TLP 的 Tag 字段 
为 8 位 ; 否则 为 5 位 。 有 关 Tag 字段 的 详细 说 明 见 第 6. 3. 1 节 。 本 市 不 对 该 寄存 器 的 其 他 位 
进行 说 明 。 
3. Device Control 寄存 器 
该 寄存 器 各 字段 的 描述 如 表 4-5 所 示 。 


表 4-5 Device Control 寄存 器 


Bit 定 义 描 述 
0 Correctable Error 该 位 可 读 写 ， 其 复位 值 为 0。 当 此 位 为 1 时 ，PCle 设备 可 以 发 出 ERR_COR 
Reporting Enable Messages 报 文 。 而 当 此 位 为 0 时 ， 不 支持 这 种 操作 
1 Non-Fatal Error 该 位 可 读 写 ， 其 复位 值 为 0。 当 此 位 为 1 时 ，PCIe 设备 可 以 发 出 ERR_NON- 
Reporting Enable FATAL Messages 报 文 。 而 当 此 位 为 0 时 ， 不 支持 这 种 操作 
2 Fatal Error Reporting 该 位 可 读 写 ， 其 复位 值 为 0。 当 此 位 为 1 时 ，PCIe 设备 可 以 发 出 ERR_FATAL 
Enable Messages 报 文 。 而 当 此 位 为 0 时 ， 不 支持 这 种 操作 
3 Unsupported Request 该 位 可 读 写 ， 其 复位 值 为 0。 当 此 位 为 1 时 ，PCIe 设备 可 以 发 出 Unsupported 
Reporting Enable Requests Error Messages 报 文 ;而 当 此 位 为 0 时 ， 不 支持 这 种 操作 
该 位 为 1 时 ， 使 能 PCIe 设备 的 Relaxed Order 模式 ， 即 PCIe 设备 在 发 送 TLP 
4 Enable Relaxed Ordering 时 ， 可 以 根据 需要 设置 TLP 的 Attr 字段 为 Relaxed Ordering; 该 位 为 0 时 ，TLP 


的 Attr 字段 不 能 设置 为 Relaxed Ordering。 该 位 复位 时 为 1 5 可 读 写 


该 字段 可 读 写 ， PCle 设备 根据 Device Capability 寄存 器 的 Bit [2: 0] 字段 设 
置 PCle 设备 TLP 的 最 大 Payload。 系 统 软件 根据 PCle 链 路 两 端的 实际 情况 ， 确 
认 该 字段 的 值 。 但 是 该 值 不 能 大 于 Device Capability 寄存 髓 的 “Max_Payload_ 
7: 5 Max_Payload_Size Size Supported” 字段 

PCIe 设备 发 送 TLP 时 ， 其 最 大 Payload 不 能 大 于 Max_Payload_Size; 当 PCIe 设 
备 接收 TLP 时 ， 必 须 能 够 处 理 小 于 该 字段 的 TLP， 而 大 于 该 字段 的 TLP 将 被 认 
做 错误 报 文 


8 en de ho reed Ti 该 位 为 1 时 ， 发 送 端 可 以 使 用 8 位 的 Tag 字段 ; 该 位 为 0 时 ， 可 以 使 用 5 位 的 
让 Tag 字段 。 该 字段 的 复位 值 为 1， 可 读 写 。Tag 字段 的 详细 描述 见 第 6. 3. 2 节 
证 该 位 为 1， 发 送 端 可 以 使 能 Phantom Function 功能 ; 为 0， 不 使 能 这 个 功能 。 
hantom runctions naDle ~ » . 和 | py 人 yy 
该 字段 的 复位 值 为 0， 可 读 写 。Phantom Function 功能 的 详细 描述 见 上 文 


Auxiliary (AUX) Power 
PM Enable 


10 该 位 为 1 时 ，PCle 设备 可 以 使 用 总 线 提供 的 辅助 电源 


此 位 为 1 时 ，PCIe 设备 在 发 送 TLP 时 ， 该 TLP 的 Attr 字段 可 以 设置 为 No 
11 Enable No Snoop Snoop; 该 位 为 0 时 ，TLP 的 Attr 字段 不 能 设置 为 No Snoop。 该 位 复位 时 为 1， 
可 读 写 。 该 位 与 Cache 共享 一 致 性 相关 


该 字段 记录 在 一 个 PCIe 设备 中 ,存储 器 读 请 求 TLP 可 以 请 求 的 最 大 数据 
域 。 当 PCIe 设备 发 送 存储 器 读 请 求 TLP 时 ,该 TLP 所 请 求 的 数据 大 小 不 能 超过 
Max_Read_Request_Size 参数 

该 字段 的 关系 与 表 4-4 中 的 描述 相同 


加 | 


14. 12 Max_Read_Request_Size 
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4.Device Status 寄存 器 
Device Status 寄存 需 主 要 字段 的 含义 如 表 4-6 所 示 。 


表 4-6 Device Status 寄存 器 


Bit 定义 描 述 

0 Correctable Error Detected 该 位 为 1 时 表示 PCIe 设备 检测 到 Correctable Error， 对 该 位 写 1 将 清除 此 位 

1 Non-Fatal Error Detected 该 位 为 1 时 表示 PCIe 设备 检测 到 Non-Fatal Eror， 对 该 位 写 1 将 清除 此 位 

2 Fatal Error Detected 该 位 为 1 时 表示 PCle 设备 检测 到 Fatal Error， 对 该 位 写 1 将 清除 此 位 

了 Unsupported Roguest Deteeted 该 位 为 1 时 表示 PCle 设备 收 到 一 个 PCIe 总 线 并 不 支持 的 报 文 请 求 ， 对 该 位 


写 1 将 清除 此 位 


当 PCle 设备 检查 到 辅助 电源 的 存在 时 ， 而 且 如 果 该 设备 需要 使 用 辅助 电源 ， 


4 AUX Power Detected 则 将 该 位 置 1 
对 于 EP 而 言 ， 该 位 为 1 表示 当前 PCle 设备 发 送 了 一 个 Non-Posted 的 数据 请 
| 求 ， 但 是 没有 收 到 完成 报 文 应 答 ; 对 于 RC 和 Switch 而 言 ， 该 位 为 1 表示 RC 和 
3 Transactions Pending 
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Switch 自身 (并 不 是 转发 其 他 设备 的 Non-Posted 数据 请 求 ) 发 出 了 一 个 Non- 
Posted 的 数据 请 求 ， 但 是 没有 收 到 完成 报 文 应 答 


5. Link Capabilities 寄存 器 

Link Capabilities 寄存 器 摘 述 PCle 链 路 的 属性 ， 其 主要 字段 的 含义 如 下 。 

e Supported Link Speeds 字段 。 为 0b0001 表示 PCIe 链 路 支持 2. 5GT (gigatransfers )/s; 
为 0b0010 表示 PCIe 链 路 支持 5GT/s;， 为 0b0100 表示 PCIe 链 路 支持 8 GT/s。 

e Maximum Link Width 字段 。 该 字段 存放 该 PCle 设备 支持 的 最 大 链 路 宽度 。 该 字段 为 

0b000001 表示 最 大 支持 x 1 的 PCle 链 路 ;为 0b000010 表示 最 大 支持 x2 的 PCIe 链 

路 ; 为 0b000100 表示 最 大 支持 x4 的 PCle 链 路 ; 为 0b001000 表示 最 大 支持 x8 的 

PCIe 链 路 ， 为 0b001100 表示 最 大 支持 x 12 的 PCIe 链 路 ， 为 0b010000 表示 最 大 支持 

x16 的 PCIe 链 路 ;为 0b100000 表示 最 大 支持 x32 的 PCIe 链 路 。 

ASPM (Active State Power Management) Support 字段 ， 该 字段 只 读 。0b00 和 0b10 为 系 

统 保留 字段 。 当 该 字段 为 0b01 时 ， 表 示 ASPM 支持 L0s 状态 ;， 当 该 字段 为 0bll 时 ， 

表示 ASPM 支持 L0s 和 L1 状态 。PCIe 设备 除了 文 持 PCI PM 电源 管理 方式 之 外 ， 还 文 

持 ASPM 机 制 进行 电源 管理 。ASPM 机 制 是 PCIe 设备 进行 的 主动 电源 管理 方式 ， 与 系 

统 软件 没有 直接 联系 。 有 关 ASPM 的 详细 描述 见 第 8. 3 节 。 

LOs Exit Latency 和 Ll Exit Latency 字段 。 这 两 个 字段 定义 了 PCle 设备 从 L0s 和 LI1 状 

态 退 出 的 最 小 延 时 。 

Port Number 字段 。 如 果 多 端口 RC 和 Switch 支持 多 个 下 游 端 口 ， 则 使 用 该 字段 对 这 些 

端口 进行 编号 。PCIe 设备 进行 链 路 训练 时 ， 需 要 使 用 这 个 端口 号 。 

6.， Link Control 寄存 器 

Link Control 寄存 器 主要 字段 的 解释 如 下 。 

e ASPM Control 字段 ， 该 字段 可 读 写 。 该 字段 为 0b00 时 表示 禁止 PCle 设备 的 ASPM 机 
制 ; 为 0b01 时 表示 PCIe 设备 可 以 进入 L0s 状态 ; 为 0b10 时 表示 PCIe 设备 可 以 进入 
L1 状态 ; 为 0b11 时 表示 PCIe 设备 可 以 进入 LOs 和 Ll 状态 。 值 得 注意 的 是 系统 软件 

不 能 通过 修改 该 字段 使 PCIe 链 路 进入 相应 的 状态 ， 仅 是 通知 硬件 逻辑 ， 可 以 进入 相 
应 的 状态 。ASPM 的 详细 描述 见 第 8.3 节 。 


e RCB((Read Completion Boundary) ) 位 。 该 位 为 0 时， 表示 RCB 为 64B， 该 位 为 1 时 ， 
表示 RCB 为 128B。RCB 的 大 小 与 完成 报 文 的 有 效 负载 相关 。 对 于 RC 而 言 ， 该 字段 
只 读 ， 而 Switch 和 EP 可 以 读 写 该 字段 。 有 关 该 位 的 进一步 说 明 见 第 6.4.3 节 。 
Link Disable 位 。 向 此 位 写 1， 将 禁止 PCIe 链 路 。 此 时 链 路 状态 机 将 进入 Disabled 状 
态 ， 有 关 PCIe 链 路 状态 机 的 详细 说 明 见 第 8. 2 节 。 
Retrain Link 位 。 向 此 位 写 1， 将 重新 训练 PCIe 链 路 。 此 时 PCIe 链 路 状态 机 将 进入 
Recovery 状态 。 
Common Clock Configuration 位 ， 该 位 可 读 写 。 当 该 位 为 1 时 ， 表 示 PCle 链 路 两 端的 设 
备 使 用 同 源 的 参考 时 钟 ， 即 相同 的 REFCLK a 如 果 该 位 为 0， 表 示 PCIe 链 路 
两 端的 设备 使 用 即使 用 异步 时 钟 。 
Extended Sync 位 ， 该 位 可 读 写 。 当 该 位 为 1 时 ， 表 示 PCIe 设备 退出 L0s 和 进入 Re- 
covery 状态 时 ， a ae 同步 序列 。 
Hardware Autonomous Width Disable 位 ， 该 位 可 读 写 。 当 该 位 为 1 时 ，PCIe 设备 不 能 改 
变 当前 已 经 协商 好 的 PCIe 链 路 宽度 ， 除 非 为 了 修正 PCle 链 路 中 已 经 出 现 错误 的 
Lane。 
Link Bandwidth Management Interrupt Enable 位 ， 该 位 可 读 写 。 当 该 位 为 1 时 ， 且 Link 
Status 寄存 央 的 Link Bandwidth Management Status 位 为 1 PCle 设备 将 向 处 理 器 提 
交 中 断 请 求 。 此 时 这 个 中 断 请 求 使 用 的 中 断 向 量 由 PCI Express Capability 寄存 句 的 In- 
terrupt Message Number 字段 确定 。 
Link Autonomous Bandwidth Interrupt Enable 位 ， 该 位 可 读 写 。 当 该 位 为 1 时 ， 且 Link 
Status 寄存 器 的 Link Autonomous Bandwidth Status 位 为 1 时 ，PCIe 设备 将 向 处 理 器 提 
交 中 断 请 求 。 

7. Link Status 寄存 器 

Link Status 寄存 器 存放 PCle 设备 正在 使 用 的 PCIe 链 路 的 状态 ， 由 链 路 宽度 和 速度 等 
数组 成 ， 其 主要 字段 的 含义 如 表 4-7 所 示 。 


表 4-7 Link Status 寄存 器 


Ry 


Bit 定 义 描 ” 述 


为 0b0001 表示 PCIe 链 路 的 传输 率 为 2. 5GT/s; 为 0b0010 表示 PCIe 链 路 的 传 
输 率 为 5GT/s， 为 0b0100 表示 PCIe 链 路 的 传输 率 为 8GT/s。 该 字段 只 读 


该 字段 存放 当前 PCIe 设备 和 其 上 游 PCIe 设备 进行 链 路 协商 后 使 用 的 链 路 宽 
度 。 该 字段 为 0b000001 表示 使 用 x1 的 PCle 链 路 ; 为 0b000010 表示 使 用 x2 的 
PCIe 链 路 ; 为 0b000100 表示 使 用 x4 的 PCIe 链 路 ， 为 0b001000 表示 使 用 x8 
的 PCIe 链 路 ; 为 0b001100 表示 使 用 x 12 的 PCIe 链 路 ; 为 0b010000 表示 使 
x16 的 PCle 链 路 ; 为 0b100000 表示 使 用 x32 的 PCle 链 路 。 该 字段 在 PCIe 链 
路 进行 训练 的 过 程 中 ， 由 硬件 逻辑 写 人 人， 系统 软件 只 能 读 取 该 字段 

该 位 只 读 ， 为 1 时 ， 表 示 PCIe 链 路 正 处 于 重新 配置 和 重新 训练 阶段 ， 当 PCle 
链 路 结束 上 述 操作 时 ， 将 此 位 清 零 

该 位 由 PCIe 设备 在 初始 化 时 确定 ， 该 位 为 1 表示 PCIe 插 槽 与 Add-m 卡 使 
的 参考 时 钟 源 相 同 。 读 者 需要 留意 该 位 与 Common Clock Configuration 位 的 差 昂 

该 位 表示 PCle 链 路 的 状态 。 该 位 为 1 时 ， 表 示 PCle 链 路 处 于 DL_Active, 上 
正常 工作 状态 


3: 0 Current Link Speeds 


9: 4 Negotiated Link Width 


11 Link Training 


12 Slot Clock Configuration 


13 Data Link Layer Link Active 
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Bit 定 义 描 述 

出 Link Bandwidth 该 位 由 PCIe 硬件 设置 。 当 PCIe 链 路 重 训练 结束 ， 或 者 PCle 设备 完成 PCIe 链 
Management Status 路 的 链 路 宽度 和 链 路 速度 的 设 定 后 ， 该 位 置 1。 该 位 写 1 清除 

15 Link Autonomous 该 位 由 PCIe 设备 确定 。 当 PCIe 链 路 自主 完成 链 路 宽度 和 速度 的 协商 后 ， 将 


Bandwidth Status 


该 位 置 1。 该 位 写 1 清除 


8，Device Capabilities 2 寄存 器 
该 寄存 器 定义 了 一 些 PCIe V2. 1 总 线 规范 使 用 的 字段 ， 其 主要 字段 如 表 4-8 所 示 。 


表 4-8 Device Capabilities 2 寄存 器 


Bit 定 义 描 述 
Switch 的 上 下 游 端口 和 RC 端口 支持 该 位 ， 在 PCle V2. 1 总 线 规范 定义 了 原子 
6 AtomicOp Routing Supported | 操作 。 当 该 位 为 1 时 ， 表 示 原 子 操作 TLP 可 以 通过 当前 Switch 或 者 RC。 有 关 原 
子 操作 的 详细 描述 见 第 6. 3. 5 节 
2-bit Atomi ed 时 s i 
7 ee on 该 位 为 1 时， 表示 EP 或 者 RC 支持 32 位 原子 操作 
Completer Supported 
ey 该 位 为 1 时， 表示 EP 或 者 RC 支持 64 位 原子 操作 
Completer Supported 
9 128 - pit CAS Completer 该 位 为 1 时， 表示 EP 或 者 RC 支持 128 位 原子 操作 。 在 PCle 总 线 规范 中 ， 只 
Supported 有 CAS (Compare and Swap) 支持 128 位 操作 
该 字段 为 0b00 时 ， 表 示 接 收 端 不 支持 TPH 和 扩展 TPH 报 文 ; 为 0b01 时 ， 表 
13: 12 | TPH Completer Supported “| 示 接 收 端 仅 支 持 TPH 报 文 ; 为 0bl1 时 ， 表 示 接 收 端 支持 TPH 和 扩展 TPH 报 
文 ; 而 0b10 保留 。 有 关 TPH 的 详细 描述 见 第 6.3.6 节 
该 位 为 1 时 ， 表 示 TLP 的 Fmt 字段 为 3 位 ， 即 支持 TLP Prefix; 为 0 时 ，Fmt 
20 Extended Fmt Field Supported | 字段 为 2 位 。Fmt 字段 的 详细 描述 见 第 6.1.1 节 。 该 位 由 V2.1 规范 引入 ， 其 目 
的 是 为 了 扩展 TLP 头 
End-End TLP Prefi en 到 
21 和 人 该 位 为 1 时 ， 表 示 EP 可 以 接收 含有 End-End TLP Prefix 的 TLP 
Supported 
该 字段 限制 一 个 TLP 中 End-End TLP Prefix 的 个 数 。 该 字段 为 0b01 表示 TLP 
专访 的 Max End-End TLP 中 最 多 含有 1 个 End-End TLP Prefix; 为 0b10 表示 最 多 含有 2 个 End-End TLP 


Prefixes 


Prefix; 为 0bl1 表示 最 多 含有 3 个 End-End TLP Prefix; 为 0b00 表示 最 多 含有 4 
个 End-End TLP Prefix 


9.， Device Control 2 寄存 器 
Device Control 2 寄存 器 主要 字段 的 含义 如 表 4-9 所 示 。 


表 4-9 Device Control 2 寄存 器 


Bit 定 义 描述 
6 AiomicOn R ter Enabl 该 位 可 读 写 ， 对 EP 和 RC 有 效 。 如 果 该 位 和 Command 寄存 器 的 “Bus Master 
omic equester Enable s 本 二 pe a 
es Enable” 位 同时 有 效 ，EP 或 者 RC 可 以 发 出 原子 操作 请 求 TLP 
该 位 可 读 写 ， 对 Switch 的 上 下 游 端 口 和 RC 端口 有 效 。 当 AtomicOp Routing 
J AtomicOp Egress Blocking |Supported 位 为 1 时 ,该 位 可 以 为 1， 否 则 该 位 只 能 为 0。 该 位 为 1 时 ， Egress 端 
口 将 阻止 原子 操作 TLP 通过 
该 位 可 读 写 ， 对 EP 和 RC 有 效 。 当 该 位 为 1 时 ，TLP 中 的 IDO (ID-Based Or- 
8 IDO Request Enable dering) 位 可 以 根据 实际 情况 ( 即 TLP 的 Ath2 位 ) 设置 为 1。IDO 是 PCIe V2.1 


总 线 规范 引入 的 新 的 “ 序 ” 模 型 。 有关 IDO 机 制 的 详细 说 明 见 第 6. 1. 3 节 


132 


( 续 ) 


Bit 定 义 描 ” 述 


9 IDO Completion Enable 该 位 可 读 写 。 当 该 位 为 1 时 ，EP 可 以 处 理 IDO 位 为 1 的 完成 报 文 


该 位 可 读 写 。 当 该 位 为 0 时 ，EP 不 能 发 送 带 有 End-End TLP Prefix 的 TLP; 
为 1 时 ， 可 以 发 送 


15 End-End TLP Prefix Blocking 


10. Root Control 和 Root Status 寄存 器 
这 两 个 寄存 髓 与 PCle 总 线 的 AER (Advanced Error Reporting) 机 制 相 关 。 其 中 Root 
Control 寄存 需 由 以 下 位 组 成 。 
e System Error on Correctable Error Enable。 该 位 为 1 时 ， 表 示 RC 端口 管理 的 PCI 树 或 者 
RC 端口 发 送 ERR_COR 信息 后 ， 将 向 处 理 器 提交 System Error 信息 。 
® System Error on Non-Fatal Error Enable。 该 位 为 1 时 表示 RC 端口 管理 的 PCI 树 或 者 RC 
端口 发 送 ERR_NONFATAL 信息 后 ， 将 向 处 理 器 提交 System Error 信息 。 
e PME Interrupt Enable。 该 位 为 1 时， 如果 RC 端口 收 到 Root Status 寄存 需 的 PME Status 
为 1 的 信息 后 ， 将 向 处 理 器 提交 PME 中 断 信息 。 
e CRS Software Visibility Enable。 当 此 位 为 1 时 ， 系 统 软件 发 送 配置 请 求 TLP 后 ，RC 端 
口 可 以 要 求 该 配置 请 求 TLP 择 时 重 试 。 如 当 PCIe 总 线 没有 初始 化 完毕 时 ， 不 能 接收 
处 理 器 的 配置 请 求 ， 此 时 将 该 位 置 1; 初始 化 完毕 后 ， 将 该 位 置 0。 
而 Root Status 寄存 器 由 以 下 位 和 字段 组 成 。 
e PME Requester ID。 该 字段 记录 最 后 发 送 PME 消息 的 PCIe 设备 的 Requester ID 号 
e PME Status。 该 位 为 1 时 ， 表 示 PCIe 设备 (ID 号 为 PME Requester ID) 已 经 向 RC 发 
送 了 PME 消息 ， 但 是 并 没有 被 处 理 完 毕 ， 该 位 写 1 清除 。 
e PME Pending。 当 PME Status 位 为 1 而 且 该 位 也 1 时， 表示 RC 中 有 尚未 处 理 的 PME 
消息 。 当 RC 清除 PME Status 位 后 ， 便 件 将 向 RC 提交 PME 消息 ， 更 新 PME Reques- 
ter ID ， 并 将 PME Status 重新 置 为 1， 同 时 清除 PME Pending。PCle 总 线 设置 该 位 的 主 
要 目的 是 为 了 防止 丢失 PME 消息 。 
PCI Express Capability 结构 中 还 含有 Slot Capabilities 、Slot Control 和 Slot Status 等 寄存 姨 。 
为 节约 篇 幅 ， 本 节 并 不 对 这 些 寄存 器 一 一 进行 介绍 ， 在 一 个 指定 的 PCIe 设备 中 ，PCI Ex- 
press Capability 结构 的 这 些 寄存 带 并 不 会 全 部 实现 。 许 多 PCle 设备 甚至 不 存在 PCI Express 
Capability 结构 3 但 是 在 这 些 PCIe 设备 中 依然 存在 与 PCI Express Capability 结构 相关 的 概念 
只 是 这 些 结构 没有 以 寄存 器 的 形式 表现 出 来 ， 供 系统 程序 员 使 用 而 已 。 


4.3.3 PCI Express Extended Capabilities 结构 


PCI Express Extended Capabilities 结构 存放 在 PCI 配置 空间 0x100 之 后 的 位 置 ， 该 结构 是 
PCIe 设备 独 有 的 ，PCI 设备 并 不 支持 该 结构 。 实 际 上 绝 大 多 数 PCIe 设备 也 并 不 支持 该 结构 。 
在 一 个 PCIe 设备 中 可 能 含有 多 个 PCI Express Extended Capabilities 结构 ， 并 形成 一 个 单 向 链 
表 ， 其 中 第 一 个 Capability 结构 的 基地 址 为 0x100， 其 结构 如 图 4-19 所 示 。 

在 这 个 单 向 链表 的 尾部 ， 其 Next Capability Offset 、Capability ID 和 Capbility Version 字段 
的 值 都 为 0。 如 果 在 PCIe 设备 中 不 含有 PCI Express Extended Capabilities 结构 ， 则 0x100 指 

733 


针 所 指向 的 结构 ， 其 Capability ID 字段 为 0xFFFF， 而 Next Capability Offset 字段 为 0x0。 


PCI Express Extended 


PCI Configuration Space 
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Configuration Space PCI Express Extended Capability 


15:0 Capability ID 
Ber Express 19:16 Capability Version Number 
Capability ID 一 
31:20 Next Capability Offset 


| 
Length implied by CAP ID /Version 
Number 


Ox100 


图 4-19 PCI Express Extended Capabilities 结构 


一 个 PCI Express Extended Capabilities 结构 由 以 下 参数 组 成 。 

e PCI Express Capability ID 字段 存放 Extended Capability 结构 的 ID 号 。 

e Capability Version 字段 存放 Extended Capability 结构 的 版 本 号 。 

e Next Capability Offset 字段 存放 下 一 个 Extended Capability 结构 的 偏 移 。 

PCIle 总 线 定义 了 一 系列 PCI Express Extended Capabilities 结构 ， 如 下 所 示 。 

e AER Capability 结构 。 该 结构 定义 了 所 有 PCIe 设备 可 能 遇 到 的 错误 ， 包括 Uncorrect- 

able Error (不 可 恢复 错误 ) 和 Correctable Error (可 恢复 错误 ) 。 当 PCIe 设备 发 现 这 

些 错误 时 ， 可 以 根据 该 寄存 需 的 设置 使 用 Error Message 将 错误 状态 发 送 给 Event Col- 

lector， 并 由 Event Collector 统一 处 理 这 些 错误 。 系 统 软件 必须 认真 处 理 每 一 个 Error 

Message， 并 进行 恢复 。 对 一 个 实际 的 工程 项 目 错误 处 理 是 保证 整个 项 目 可 靠 性 的 

重要 一 环 ， 不 可 忽视 。AFR 机 制 与 Error Message 报 文 的 处 理 相 关 ， 第 6. 3. 4 节 将 进 

一 步 介绍 AER 机 制 。 

Device Serial Number Capability 结构 。 该 结构 记载 PCle 设备 使 用 的 序列 号 。IEEE 定义 

了 一 个 64 位 宽度 的 PCle 序列 号 ， 其 中 前 24 位 作为 PCle 设备 提供 商 使 用 的 序列 号 ， 

而 后 40 位 由 厂商 选择 使 用 。 

PCIe RC Link Declaration Capability 结构 。 在 RC、RC 内 部 集成 的 设备 或 者 RCRB 中 可 

以 包含 该 结构 。 该 结构 存放 RC 的 拓扑 结构 ， 如 RC 使 用 的 PCI 链 路 宽度 。 如 果 RC 

支持 多 个 PCle 链 路 ， 该 结构 还 包含 每 一 个 链 路 的 描述 和 端口 命名 。 

e PCIe RC Internal Link Control Capability 结构 。 该 结构 的 主要 作用 是 描述 RC 内 部 互 连 
使 用 的 PCIe 链 路 。 该 结构 由 Root Complex Link Status 和 Root Complex Link Control 寄 
存 器 组 成 。 

e Power Budget Capability 结构 。 当 处 理 器 系统 为 一 些 动态 加 入 的 PCIe 设备 分 配 电源 配 
额 时 ， 将 使 用 该 设备 的 Power Budget Capability 结构 。 

e ACS (Access Control Services ) Capability 结构 。 该 结构 对 PCIe 设备 进行 访问 控制 管 


理 。RC 端口 、Switeh 的 下 游 端口 和 多 功能 PCle 设备 可 以 支持 该 结构 。 该 结构 与 PCle 
总 线 的 ACS 机 制 相 关 。ACS 机 制定 义 了 一 组 与 收 到 的 TLP 相关 的 操作 ， 该 机 制 的 原 
理 较为 简单 ， 本 节 对 此 不 做 进一步 分 析 。 

RCRB Header Capability 结构 。 该 结构 存放 RC 中 的 RCRB ， 第 5. 1 节 将 以 Montivina 平 
台 为 例 介绍 该 结构 的 组 成 结构 。 

RC Event Collector EP Association Extended Capability。 在 x86 处 理 需 系统 中 ，RC 包含 
一 个 Event Collector 控制 器 ， 该 控制 器 处 理 PCIe 设备 发 向 RC 的 各 类 消息 ， 如 PME 消 
息 和 Error 消息 。 该 结构 用 来 描述 Event Collector 控制 右 。 

Multicast Capability 结构 。PCIe 总 线 上 的 RC、Switch 或 者 EP 如 果 支 持 Multicast 消息 ， 
需要 使 用 该 结构 描述 支持 哪些 Multicast 组 。PCIe 体系 结构 支持 Multicast 功能 ， 在 
PCIe 总 线 中 ， 除 了 PCIe 桥 一 定 不 支持 Multicast 功能 外 ， 其 他 设备 都 可 以 支持 该 功能 。 
本 节 对 Multicast 功能 不 做 进一步 说 明 。 

此 外 PCIe 总 线 还 可 以 支持 其 他 Capability 结构 ， 如 Vendor-Defined Capability 、Resizable 
BAR Capability、 DPA (Dynamic Power Allocate) 和 MFVC (Multi-Function Virtual Channel) 
Capability 结构 等 其 他 结构 。 但 是 在 PCle 总 线 中 ， 这 些 扩 展 的 Capability 结构 并 没有 得 到 充 
分 利用 。 在 一 个 实际 的 PCIe 设备 中 可 能 并 不 包含 这 些 结构 。 

PCle 设备 定义 的 Capability 结构 有 些 过 多 ， 使 用 这 种 方法 可 以 概括 所 有 PCIe 设备 的 使 用 
特性 。 许 多 PCle 设备 在 支持 这 些 Capability 结构 后 ， 几 乎 可 以 不 使 用 BAR 寄存 右 空 间 存 放 
与 PCIe 总 线 相关 的 任何 信息 。 但 是 过 多 的 Capability 结构 为 软 硬 件 工程 师 在 设计 上 带 来 了 不 
小 的 麻烦 。 一 般 说 来 ,事务 的 发 展 过 程 是 由 简 入 繁 ， 由 繁 化 简 。 目 前 PCIe 总 线 的 发 展 仍 处 
在 由 简 入 繁 的 过 程 。 

本 节 仅 详细 介绍 PCI Express Extended Capabilities 结构 组 中 的 MFVC 结构 。MFVC 结构 是 
PCIe 总 线 的 一 个 可 选 结构 ， 其 结构 如 图 4-20 所 示 。TLP 在 通过 Switch 时 需要 通过 TC/VC 
Mapping ， 而 且 在 进行 VC 仲裁 和 端口 仲裁 时 ， 需 要 使 用 某 些 仲裁 策略 。 

在 PCIe 总 线 中 ，TCZVC Mapping 表 和 VC/ 端 口 仲裁 策略 在 MFVC 结构 中 定义 。 其 结构 
如 图 4-20 所 示 。 值 得 注意 的 是 ， 在 许多 PCIe 设备 中 ， 可 能 只 具有 一 个 VC， 而且 其 VC 仲 
裁 的 算法 固定 ， 那 么 在 这 个 PCIe 设备 中 ，MFVC 结构 并 没有 存在 的 必要 。 目 前 支持 多 VC 的 
PCIe 设备 极 少 ， 仅 有 一 些 RC 和 Switch 中 存在 多 个 VC， 而 且 也 仅 支 持 两 个 VC。 

VC Capability 的 ID 为 0x02 或 者 0x09，VC Capability 结构 由 两 部 分 组 成 ， 分 别 是 一 个 
VC Capability 寄存 带 组 和 n 个 VC Resource 寄存 需 组 ， 其 中 VC Resource 寄存 需 是 可 选 的 。 如 
果 PCIe 设备 仅 支 持 一 个 VC 时 ， 该 结构 中 不 含有 VC Resource 寄存 器 ， 而 在 VC Capability 寄 
存 器 组 中 包含 该 VC 的 描述 信息 。 当 一 个 PCIe 设备 支持 8 个 Function 时 ， 则 ma 为 7， 如 果 支 
持 7 个 设备 ， 则 1n 为 6， 并 以 此 类 推 。 其 中 每 一 个 VC Resource 寄存 器 组 中 都 包含 一 个 VC 仲 
裁 表 、 端 口 仲裁 表 和 VCZTC 的 映射 表 。 

1. VC Capability 寄存 器 组 

该 组 寄存 磊 由 Port VC Capability Register 1 、Port VC Capability Register 2 、Port VC Control 
Register 和 Port VC Status Register 寄存 需 组 成 。 

(1) Port VC Capability Register 1 主要 字段 的 含义 如 表 4-10 所 示 。 
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31 20 19 16 15 0 
Next Capability Offset PCI Express Extended Capability ID | 0x00 
Port VC Capability Register 1 N(2:0) | 0x04 
VC Arb Table ep er 
Offset(31:24) Port VC Capability Register 2 0x08 
Port VC Status Register Port VC Control Register Ox0C VC Capability 寄 存 器 
PortATb Table VC Resource Capability Register (0) 0x10 
Offset(31:24) 


VC Resource Control Register (0) 0x14 


0 二 一 
要 VC Resource 寄 存 器 
J 9 VC Resource Capability Register (n) Oxl0+n x Ox0C / 


VC Resource Control Register (n) Oxl4+n x Ox0C 


VC Arbitration Table VAT_OFFSET x 0x10 
Port Arbitration Table (0) PAT_OFFSET(0) x Ox10 
Port Arbitration Table (n) PAT_OFFSET(n) x Ox10 


图 4-20 ”MEFVC 结构 
表 4-10 Port VC Capability Register 1 


Bit 定 义 描述 
扩展 的 VC 个 数 ， 最 小 值 为 0， 表 示 只 支持 VC0; 最 大 值 为 7， 表示 支持 8 个 
2: 0 Extended VC Count VC VCO 2 VC7 


和 VC0 优先 级 相同 的 扩展 VC 的 个 数 。 在 PCle 总 线 中 ，VC0 的 级 别 最 低 。 该 
字段 的 最 小 值 为 0， 最 大 值 为 7 
如 果 VC 使 用 Time-based WRR 算法 时 ， 需要 使 用 一 个 参考 时 钟 。PCIe 总 线 规 
定 当 该 字段 为 0b00 时 ， 这 个 参考 时 钟 的 周期 为 100 ns， 即 时 钟 频率 为 10 MHz 
| 表示 Port Arbitration Table Entry 的 大 小 。0b00 表示 Entry 的 长 度 为 1 位 ; 0b01 
Port Arbitration Table 


11: 10 . 表示 Enby 的 长 度 为 2 位 ; 0b10 表示 Entry 的 长 度 为 4 位 ; 0bl1 表示 Entry 的 长 
Entry Size 度 为 8 位 
PEA o 


6: 4 ILow Priority Extended VC Count 


9: 8 Reference Clock 


(2) Port VC Capability Register 2 
该 寄存 器 由 两 个 字段 组 成 。 其 中 VC Arbitration Capability 字段 存放 PCIe 设备 支持 的 VC 
调度 算法 ，PCIe 总 线 提供 的 调度 算法 包括 Hardware-fixed 仲裁 策略 和 WRR 仲裁 策略 。 其 中 
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WRR 仲裁 策略 分 为 32 、64 或 者 128 个 Phase，VC 仲裁 不 支持 Time-based WRR 算法 ， 有 关 
WRR 算法 的 详细 说 明 见 下 文 。 

而 VC Arbitration Table Offset 字段 存放 VC Arbitration Table 的 地 址 偏 移 ， 如 果 在 PCle 设 
备 中 不 含有 VC Arbitration Table， 该 字段 为 0。 

(3) Port VC Control Register 

该 寄存 器 由 Load VC Arbitration Table 位 和 VC Arbitration Select 字段 组 成 。 系 统 软件 通过 
操纵 该 寄存 器 更 改 VC 的 仲裁 算法 ， 其 中 VC Arbitration Select 字段 用 来 选择 VC Arbitration 
Table 的 长 度 ， 其 关系 如 表 4-11 所 示 。 

表 4-11 VC Arbitration Select 字段 的 说 明 


VC Arbitration Select 字段 VC Arbitration Table 的 长 度 
0b001 32 
0b010 64 
0b011 128 


Load VC Arbitration Table 位 用 来 更 新 VC 的 仲裁 算法 。 系 统 软件 向 Load VC Arbitration 
Table 位 写 1 时 更 新 VC 的 仲裁 算法 ，PCIe 设备 可 以 根据 VC Arbitration Select 字段 选择 合适 
的 仲裁 算法 ， 系 统 软件 向 Load VC Arbitration Table 位 写 0 没有 意义 。 

(4) Port VC Status Register 

Port VC Status Register 使 用 VC Arbitration Table Status 位 ， 控 制 更 新 VC 仲裁 算法 的 进 
度 。 当 系统 软件 向 Load VC Arbitration Table 位 写 1 时 ，PCIe 设备 将 更 新 VC 的 仲裁 算法 ， 并 
将 VC Arbitration Table Status 位 置 1。PCIe 设备 在 没有 完成 仲裁 算法 的 更 换 之 前 ，VC Arbitra- 
tion Table Status 位 一 直 为 1， 当 PCIe 设备 完成 仲裁 算法 的 更 换 后 ， 该 位 被 PCIe 设备 清 零 。 

2. VC Resource 寄存 器 组 

在 PCIe 设备 中 ,每 一 个 VC 都 有 一 组 VC Resource 寄存 器 组 ， 这 组 寄存 器 设置 每 一 个 
VC 的 属性 和 端口 仲裁 算法 。 该 组 寄存 需 由 VC Resource Capability Register 、VC Resource Con- 
trol Register 和 VC Resource Status Register 寄存 如 组 成 。 

(1) VC Resource Capability Register 主要 字段 的 含义 如 表 4-12 所 示 。 

表 4-12 VC Resource Capability Register 
Bit 定义 描 述 
存放 当前 VC 支持 的 端口 仲裁 算法 。 该 字段 对 Switch 和 支持 Peer-to-Peer 传送 
的 RC 端口 有 效 
Bit 0: 硬件 固化 的 算法 ， 如 RR 
Bit 1: WRR with 32 phases 
7: 0 Port Arbitration Capability Bit 2: WRR with 64 phases 
Bit 3: WRR with 128 phases 
Bit 4: Time-based WRR with 128 phases 
Bit 5: WRR with 256 phases 
Bit 6 ~7: 保留 
此 位 为 0 时 ，TLP 的 No Snoop 位 无 论 是 0 还 是 1 都 可 以 通过 该 VC; 此 位 为 1 
15 Reject Snoop Transactions 时 ， 如 果 TLP 的 No Snoop 位 为 0， 该 TLP 不 能 通过 该 VC。 该 位 对 RC 或 者 
RCRB 有 意义 
(2) VC Resource Control Register 主要 字段 的 含义 如 下 。 
e TC/VC Map 字段 ， 第 7 ~0 位 。 该 字段 的 每 一 位 对 应 一 个 TC， 其 中 第 7 位 对 应 TC7， 
137 


该 位 有 效 时 表示 TC7 使 用 该 VC 进行 数据 传递 ; 第 6 位 对 应 TC6， 该 位 有 将 时 表示 
TC6 使 用 该 VC 进行 数据 传递 ， 并 以 此 类 推 。 对 于 VC0 通路 ， 该 字段 的 复位 值 为 
0xFF， 对 于 其 他 VC 通路 ， 该 字段 的 复位 值 为 0x00。 因 此 在 系统 初始 化 时 ， 所 有 TC 
都 使 用 VC0 进行 数据 传递 ， 而 PCle 链 路 必须 支持 VC0。 使 用 该 字段 可 以 保证 TC 不 
同 的 TLP 可 以 使 用 同一 个 VC， 但 是 在 PCIe 总 线 中 ， 一 个 TC 与 一 条 VC 建立 了 映射 
关系 后 ， 不 能 与 其 他 VC 建立 映射 关系 。 
e Load Port Arbitration Table 位 ， 第 16 位 。 当 该 位 被 置 1 后 ，PCIe 设备 将 使 用 Port Arbi- 
tration Table 更 新 端口 仲裁 的 算法 ， 当 该 位 置 1 后 ，VC Resource Status 寄存 右 的 Port 
Arbitration Table Status 位 也 将 置 1 ， 当 端口 仲裁 算法 更 新 完毕 后 ，Port Arbitration Table 
Status 位 将 清 零 ， 对 此 位 写 1 没有 意义 。 
e Port Arbitration Select 字段 ， 第 19 ~ 17 位 。 该 字段 描述 Port Arbitration Table 表 的 Entry 
个 数 。 下 文 将 详细 解释 该 字段 。 
。 VC ID 字段 ， 第 26 ~24 位 。 该 字段 存放 当前 VC 的 ID 号 ，PCIe 设备 的 第 一 个 VC ID 
必须 为 0。 
eVC Enbale 位 ,第 31 位 。 该 位 为 1 时， 当前 VC 通路 有 效 ， 和 否则 无 效 。 在 系统 初始 化 
完毕 后 ，VC0 的 VC Enable 位 为 1， 而 其 他 VC 的 VC Enable 位 为 0。 
(3) VC Resource Status Register 主要 字段 的 含义 如 下 。 
e Port Arbitration Table Status 位 ， 第 0 位 。 该 位 表示 当前 VC 更 新 端口 仲裁 算法 的 状态 ， 
该 位 由 PCIe 设备 维护 ， 对 系统 软件 只 读 。 
e VC Negotiation Pending 位 ， 第 1 位 。 该 位 为 1 表示 当前 VC 通路 正在 进行 初始 化 或 者 
处 于 正在 关闭 的 状态 ， 此 时 当前 VC 并 没有 准备 好 ， 还 没有 从 FC_INIT2 状态 中 退出 ; 
为 0 表示 当前 VC 准备 好 ，PCIe 链 路 已 经 完成 流量 控制 的 初始 化 。 系 统 软件 必须 保证 
该 位 为 0 后 ， 才 能 对 该 VC 进行 操作 。 有 关 FC_INIT2 状态 的 详细 说 明 见 第 9. 3.3 市 。 
3. VC Arbitration Table 
VC Arbitration Table 的 长 度 由 Port VC Control 寄存 器 的 VC Arbitration Select 字段 确定 ， 
最 小 为 32 个 Entry， 最 大 为 128 个 Entry。VC Arbitration Table 实现 VC 仲裁 的 WRR 算法 。 在 
VC Arbitration Table 中 ， 每 一 个 Entry 由 4 位 组 成 ， 其 中 最 高 位 保留 ， 最 低 三 位 记录 VC 号 。 
下 文 举例 说 明 32 个 Phase 的 WRR 算法 ， 在 这 种 情况 下 VC Arbitration Table 的 长 度 为 32， 这 
个 表 中 每 一 个 Entry 记录 一 个 VC 号 ， 如 图 4-21 所 示 。 

在 图 4-21 中 ，VC Arbitration Table 的 每 一 个 Entry 都 记录 一 个 VC 号 。 假 定 VC 仲裁 时 
从 Phase0 开始 使 用 ,该 Entry 存放 的 VC 号 为 VC0， 则 VC 仲裁 的 结果 是 传送 虚 通 路 VC0 中 
的 总 线 事务 ， 当 这 个 总 线 事务 传送 结束 后 ， 将 处 理 Phasel 中 的 VC; 如 果 该 Entry 存放 的 VC 
号 为 VC2， 则 VC 仲裁 的 结果 是 传送 虚 通路 VC2 中 的 总 线 事务 ， 并 以 此 类 推 直到 Phase31 
后 ， 再 对 Phase0 重新 进行 处 理 。 

使 用 这 种 加 权 处 理 的 方法 ， 可 以 保证 PCIe 总 线 QoS。 值 得 注意 的 是 ， 使 用 该 方法 时 ， 
如 果 当 前 Entry 存放 的 VC 中 ,不 存在 总 线 事务 时 ， 将 迅速 移动 到 下 一 个 Entry; 如 果 VC 间 
并 没有 出 现 冲 突 时 ， 不 需要 使 用 该 表 进 行 仲裁 ， 使 用 64 个 Phase 和 128 个 Phase 的 WRR 算 
法 的 实现 机 制 与 此 类 似 。 由 上 文 的 分 析 可 以 发 现 ， 与 RR 算法 相 比 ，PCIe 总 线 使 用 WRR 算 
法 可 以 在 保证 QoS 的 基础 上 ， 使 各 个 VC 公平 使 用 端口 资源 。 
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31 28 


Phase17 
(VC7) 


Phase15 
(VC06) 
Phase23 
(VC5) 


Phase31 
(VC1) 


图 4-21 32 Phases 的 VC Arbitration Table 


4. Port Arbitration Table 

每 一 个 VC 都 有 一 个 Port Arbitration Table， 如 图 4-12 所 示 。 每 一 个 TLP 都 首先 需要 进 
行 端口 仲裁 之 后 ， 才 能 进行 VC 仲裁 ， 然 后 通过 端口 发 送 。Port Arbitration Table 的 主要 作用 
是 确定 端口 仲裁 的 策略 。 其 长 度 由 VC Resource Capability Register 的 Port Arbitration Capability 
字段 确认 ， 如 表 4-12 所 示 。 

在 该 表 中 ， 每 一 个 Entry 的 大 小 由 该 设备 支持 的 端口 数目 有 关 ， 如 果 一 个 设备 支持 NN 个 
端口 ， 则 该 表 Entry 的 大 小 为 「 Log,N |。 如 果 一 个 设备 有 6 个 端口 ， 则 Port Arbitration Table 
的 Entry 大 小 为 3。PCIe 总 线 支 持 RR、WRR 和 Time-based WRR 端口 仲裁 策略 。 

Time-based WRR 端口 仲裁 策略 的 引入 是 为 了 支持 PCle 总 线 的 isochronous 数据 传送 方 
式 。 在 PCle 总 线 中 使 用 WRR 算法 每 处 理 完 一 个 总 线 事务 将 移动 一 个 Phase， 而 Time-based 
WRR 算法 需要 至 少 经 过 一 个 时 间 槽 后 才能 移动 一 个 Phase。PCle 总 线 为 Time-based WRR 算 
法 使 用 的 基准 时 钟 周期 在 Port VC Capability Register 1 的 Reference Clock 字段 中 定义 ， 目 前 
该 值 为 100ns。 

PCIe 总 线 中 使 用 的 这 些 仲 裁 算法 源 于 网 络 通 信 ， 这 几 种 算法 都 是 基于 轮 询 的 仲裁 算法 。 
在 网 络 中 ， 还 经 常 使 用 DWRR (Deficit Weighted Round Robin) 算法 。 

WRR 算法 在 支持 长 度 不 同 的 报 文 时 ， 会 出 现 带宽 分 配 不 公平 的 现象 ， 为 此 M. Shreedhar 
与 George Varghese 提出 了 DWRR 调度 算法 。DWRR 算法 给 每 一 个 队列 分 配 的 权 值 不 是 基于 
报 文 的 个 数 , 而 是 基于 报 文 的 比特 数 。 因 此 可 以 使 各 个 队列 公平 地 获得 带宽 。 但 是 这 种 算法 
并 不 适用 于 PCIe 总 线 ， 因 为 PCIe 总 线 基 于 报 文 进行 数据 传递 ， 而 不 是 基于 数据 流 。 该 算法 
在 ATM 分 组 交换 网 中 得 到 了 广泛 的 应 用 。 


4.4 小 结 


本 章 简要 介绍 了 PCIe 总 线 的 各 个 组 成 部 件 ， 包 括 RC、Switch 和 EP 等 ， 并 介绍 了 PCIe 
总 线 的 层次 组 成 结构 ， 和 PCIe 设备 使 用 的 Capability 结构 。 本 章 是 读者 了 解 PCIe 体系 结构 
的 基础 。 
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第 5 人意 ”Montevina 的 MCH 和 ICH 


本 章 以 Montevina 平台 为 例 ， 说 明 在 x86 处 理 器 系统 中 ，PCIe 体系 结构 的 实现 机 制 。 
Montevina 平台 是 Intel 提供 的 一 个 笔记 本 平台 。 在 这 个 平台 中 ,含有 一 个 Mobile 芯片 组 、 
Mobile 处 理 器 和 无 线 网 卡 。 其 中 Mobile 芯片 组 包括 代号 为 “Contiga” 的 GMCH (Graphics 
and Memory Controller Hub) 和 ICH9M 系列 的 ICH; Mobile 处 理 需 使 用 代号 为 “Penryrn” 的 
第 二 代 Intel Core2 Duo; 无 线 网 卡 的 代号 为 “ Shirley Peak” (支持 WiFi) 或 者 “Echo Peak” 
(同时 支持 WiFi 和 WiMax) 。Montevina 平台 的 拓扑 结构 如 图 5-1 所 示 。 


Penryn 处 理 器 


上 
人 FSB 总 线 (667/800/1066MHz) 
- - GMCH 
-一 | 7 ppDR 
SDRAM 


iHDMI/DVI 
Display Port 
Discrete Graphics 


存储 器 控制 器 
Bus 0 Device 0 


“PCI 总线 0 
| 1cH 


DMI-to-USB 桥 | ee 
Bus 0 Device < 


DMI-to-PCI 桥 | 
Bus 0 Device 30 


6 PCIe 链 路 X1 


LPC 控制 器 
Bus 0 Device 31 


图 5-1 Montevina 平台 的 拓扑 结构 


Montevina 平台 使 用 一 个 虚拟 的 FSB-to-PCI 桥 将 FSB 总 线 与 外 部 设备 分 离 ， 这 个 虚拟 
PCI 桥 的 上 方 连接 FSB 总 线 ， 之 下 连接 PCI 总 线 0。 但 是 从 物理 信和 号 的 角度 来 看 ，MCH 中 的 
PCI 总 线 0 是 FSB 总 线 的 延伸 ， 因 为 该 PCI 总 线 0 依然 使 用 FSB 总 线 的 信号 ， 只 是 连接 到 这 
条 总 线 上 的 设备 相当 于 虚拟 PCI 设备 。 在 GMCH 中 ， 并 没有 提 及 这 个 FSB-to-PCI 桥 ， 但 是 
在 芯片 设计 中 ， 存 在 这 个 桥 片 的 概念 。 

从 系统 软件 的 角度 来 看 ， 在 PCI 总 线 0 上 挂 接 的 设备 都 含有 PCI 配置 寄存 器 ， 系 统 软 件 
将 这 些 设 备 看 做 PCI 设备 ， 并 可 以 访问 这 些 设备 的 PCI 配置 空间 。 在 Montevina 平台 的 


日 在 Montevina 平 台 的 数据 手册 中 并 没有 提 及 这 个 FSB-to-PCI 桥 。 
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GMCH 和 ICH 中 ,所 有 的 外 部 设备 ， 如 存储 器 控制 器 ， 图 形 控 制 器 等 都 是 虚拟 PCI 设备 ， 
都 具有 独立 的 PCI 配置 空间 。GMCH 和 ICH 之 间 使 用 DMI ( Direct Management Interface) 接 
口 相连 ， 但 是 DMI 接口 仅仅 是 链 路 级 别 的 连接 ， 并 不 产生 新 的 PCI 总 线 号 ，ICH 的 DMI-to- 
USB 桥 和 DMI-to-PCIe 桥 也 都 属于 PCI 总 线 0 上 的 设备 。 

在 x86 处 理 器 中 ，MCH 包含 的 虚拟 PCI 设备 优先 级 较 高 ， 而 ICH 包含 的 虚拟 PCI 设备 优先 
级 较 低 。 当 CPU 发 起 一 个 PCI 数据 请 求 时 ，MCH 的 PCI 设备 将 首先 在 PCI 总 线 0 上 进行 正 向 译 
码 。 如 果 当 前 PCI 数据 请 求 所 使 用 的 地 址 没有 在 MCH 的 PCI 设备 命中 时 ，DMI 接口 部 件 将 使 用 
负 向 译 码 方式 被 动 地 接收 这 个 数据 请 求 ， 然 后 通过 DMI 总 线 将 这 个 数据 请 求 转 发 到 ICH 中 。 

因此 在 x86 处 理 器 中 ，MCHS 集 成 了 一 些 对 带宽 要 求 较 高 的 虚拟 PCI 设备 ， 如 DDR 控 
制 器 、 显 卡 等 。 而 在 ICH 中 集成 了 一 些 低 速 PCIe 端口 ， 和 一 些 速度 相对 较 低 的 外 部 设备 ， 
如 PCI-to-USB 桥 、LPC 总 线 控制 器 等 。 

MCH 和 ICH 包含 一 些 内 置 的 PCI 设备 ， 这 些 设备 都 具有 PCI 配置 空间 ，x86 处 理 需 可 
以 使 用 PCI 配置 周期 访问 这 些 PCI 配置 空间 。 在 MCH 和 ICH 中 ，PCI 总 线 0 是 FSB 总 线 的 
延伸 ， 所 以 处 理 器 访问 这 些 设备 时 并 不 使 用 PCI 总 线 规定 的 信号 ， 如 FRAME#、TRDY#、 
IRDY# 和 IDSEL 信号 。 在 MCH 和 ICH 中 ， 有 些 PCI 设备 并 不 是 传统 意义 上 的 外 部 设备 ， 而 
仅 是 虚拟 PCI 设备 ， 即 使 用 PCI 总 线 的 管理 方法 统一 在 一 起 的 设备 。 

x86 处 理 需 使 用 这 些 虚 拟 PCI 外 设 的 优点 是 可 以 将 所 有 外 部 设备 都 用 PCI 总 线 统一 起 
来 ， 这 些 设备 使 用 的 寄存 器 都 可 以 保存 在 PCI 设备 的 配置 空间 中 ,但 是 
程度 上 容易 混淆 一 些 概念 ， 尤其 是 有 关 地 址 空间 的 概念 ee 
中 ，DDR-SDRAM 空间 属于 存储 器 域 ， 与 其 相关 的 DDR-SDRAM 控制 器 也 应 ee 
域 ， 但 是 在 x86 处 理 器 中 存储 器 控制 器 属于 PCI 总 线 域 。 


5.1 PCI 总 线 0 的 Device 0 设备 


PCI 总 线 0 上 存储 器 控制 器 〈Device 0) 是 一 个 比较 特殊 的 PCI 设备 ， 这 个 设备 除了 需 
要 管理 DDR SDRAM 之 外 ,还 管理 整个 存储 器 域 的 地 址 空间 ， 包 括 PCI 总 线 域 地 址 空间 。 在 
x86 处 理 器 系统 中 ， 该 设备 是 管理 存储 器 域 空间 的 重要 设备 ， 其 中 含有 许多 与 存储 器 空间 相 
关 的 寄存 器 

这 些 寄存 器 对 于 系统 程序 员 理解 x86 处 理 器 的 存储 器 拓扑 结构 非常 重要 ， 对 底层 编程 有 
兴趣 的 系统 程序 员 需 要 掌握 这 些 寄存 器 。 但 是 在 x86 处 理 器 系统 中 ,由 于 BIOS 的 存在 ， 绝 
大 多 数 系统 程序 员 并 没有 机 会 实际 使 用 这 些 寄 存 器 

从 底层 开发 的 角度 上 看 ，x86 处 理 器 系统 并 不 如 PowerPC、MIPS 和 ARM 处 理 器 透明 。 
x86 处 理 器 首先 使 用 BIOS 屏蔽 了 处 理 器 的 硬件 实现 细节 ， 其 次 在 处 理 器 内 核 中 使 用 了 Mi- 
crocode?9 进一步 屏蔽 了 CPU 的 实现 细节 。 这 使 得 底层 程序 员 在 没有 得 到 充分 的 资源 时 ， 几 乎 
无 法 开发 x86 处 理 器 的 底层 代码 。 


从 体系 结构 的 角度 上 看 ，MCH 和 ICH 仅仅 是 一 个 称呼 ， 实 际 上 并 不 重要 。 
钙 许多 处 理 器 和 外 部 设备 都 使 用 了 Microcode 屏蔽 CPU 的 实现 细节 ， 如 Alpha 处 理 器 的 PAL。 
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但 是 不 可 否认 的 是 x86 处 理 器 底层 开发 的 复杂 程度 超过 PowerPC 、MIPS 和 ARM 处 
理 器 ， 因 为 x86 处 理 器 系统 作为 通用 CPU 需要 与 各 类 操作 系统 兼容 ， 而 向 前 兼容 对 于 
任何 一 种 处 理 需 都 是 一 个 巨大 的 包容 。x86 处 理 需 系统 使 用 BIOS 和 Microcode 屏蔽 人 硬件 
细节 基于 许多 深层 次 的 考虑 ， 包 括 技术 和 商业 上 的 考虑 ， 这 种 做 法 在 PC 领域 取得 了 巨 
大 的 成 功 。 

从 传统 外 部 设备 的 角度 上 看 ，PCI 总 线 0 的 Device 0 并 不 是 一 个 设备 ， 仪 存放 与 处 理 器 
系统 密切 相关 的 一 组 参数 。 而 除了 x86 处 理 器 之 外 ， 几 乎 所 有 处 理 器 都 使 用 存储 器 映射 寻 址 
的 寄存 器 保存 这 些 参 数 。 

x86 处 理 器 需要 考虑 向 前 兼容 ， 因 此 存在 许多 独特 的 设计 。 这 些 独特 的 设计 极 易 使 一 些 
初学 者 混淆 计算 机 体系 结构 中 的 一 些 基 本 概念 。 从 这 个 角度 来 看 ，x86 处 理 器 并 不 适合 教 
学 ， 但 这 并 不 影响 x86 处 理 器 在 PC 领域 的 地 位 。 值 得 注意 的 是 ， 在 x86 处 理 器 中 ，PCI 总 
线 0 的 Device 0 的 存在 并 不 完全 是 为 了 向 前 兼容 ， 而 是 Intel 使 用 PCI 总 线 概念 统一 所 有 外 
部 设备 的 方法 。 

在 Montevina 平台 中 ， 系 统 软件 使 用 Type 00h 配置 请 求 访问 存储 器 控制 器 ， 该 存储 需 探 
制 器 除了 具有 一 个 标准 PCI Agent 设备 的 64B 的 配置 空间 之 外 ， 还 使 用 了 PCI 设备 的 扩展 配 
置 空间 ， 其 包含 的 主要 寄存 器 如 表 5-1 所 示 。 

表 5-1 Device 0 的 基本 配置 空间 


寄存 器 名 简 写 缺 省 值 说 明 
Vendor Identification VID 0x8086 Intel 公司 使 用 的 VID 
Device Identification DID 0x2A40 Contiga 使 用 的 DID 
PCI Command PCICMD 0x0006 支持 存储 器 空间 ， 可 作为 主 设备 
PCI Status PCISTS 0x0090 支持 背靠背 传送 和 Capability 寄存 器 
Revision Identification RID 0x00 版 本 号 为 0 
Class Code CC 0x060000 表示 该 设备 为 Host Bridge 
Master Latency Timer MLT 0x00 PCIe 设备 不 再 使 用 该 寄存 器 
Header Type HDR 0x00 表示 为 PCI 单 功 能 设备 
Subsystem Vendor Identification SVID 0x0000 未 使 用 
Subsystem Identification SID 0x0000 未 使 用 
Capability Pointer CAPPTR OxEO0 第 一 个 Capability 寄存 器 地 址 为 0xE0 


Device 0 使 用 的 基本 配置 空间 与 其 他 PCI 设备 兼容 。 这 里 值得 注意 的 是 Device 0 在 PCle 
体系 结构 中 ， 被 认为 是 HOST 主 桥 。 而 Device 0 使 用 的 PCI 扩展 配置 空间 也 被 称 为 RCRB ， 
RCRB 的 主要 作用 是 描述 当前 处 理 器 的 存储 器 地 址 拓扑 结构 ， 包 括 主 存储 器 地 址 和 PCI 总 线 
地 址 。 其 简写 和 复位 值 如 表 5-2 所 示 。 

表 5-2 Device 0 的 扩展 PCI 配置 空间 


寄存 器 名 简 写 缺 省 值 
Egress Port Base Address EPBAR 0x0000-0000-0000-0000 
(C) MCH Memory Mapped Register Range Base MCHBAR 0x0000-0000-0000-0000 
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( 续 ) 


寄存 器 名 简 写 缺 省 值 
(G) MCH Graphics Control Register GGC 0x0030 
Device Enable DEVEN 0x000043DB 
PCI Express Register Range Base Address PCIEXBAR 0x0000-0000-E000-0000 
MCH-ICH Serial Interconnect Ingress Root Complex DMIBAR 0x0000-0000-0000-0000 
Programmable Attribute Map 0 PAMO 0x00 
Programmable Attribute Map 1 PAMI 0x00 
Programmable Attribute Map 2 PAM2 0x00 
Programmable Attribute Map 3 PAM3 0x00 
Programmable Attribute Map 4 PAM4 0x00 
Programmable Attribute Map 5 PAM5 0x00 
Programmable Attribute Map 6 PAM6 0x00 
Legacy Access Control LAC 0x00 
Remap Base Address Register REMAPBASE 0x03FF 
Remap Limit Address Register REMAPLIMIT 0x0000 
System Management RAM Control SMRAM 0x02 
Extended System Management RAM Control ESMRAMC 0x38 
Top of Memory TOM 0x0001 
Top of Upper Usable DRAM TOUUD 0x0000 
Top of Low Used DRAM Register TOLUD 0x0010 
Error Status ERRSTS 0x0000 
Error Command ERRCMD 0x0000 
Scratchpad Data SKPD 0x0000-0000 
Capability Identifier CAPIDO 0x0000-0000-0000-010A-0009 


系统 软件 首先 检查 Capability Identifier 寄存 器， 该 寄存 器 的 地 址 偏 移 为 0xE0， 即 CAP- 
PTR 寄存 需 指 向 的 地 址 为 0xE0。 该 Capability 结构 使 用 的 PCI Express Extended Capability ID 
字段 (该 字段 在 CAPID0 寄存 器 中 ) 为 0x0A， 因 此 表 5-2 中 的 寄存 器 组 为 RCRB Capability 


结构 ， 有 关 Capability 结构 的 组 成 结构 见 第 4.3 节 。 


在 x86 处 理 器 系统 中 ，RCRB 存放 一 些 与 处 理 器 系统 相关 的 寄存 器 。 而 在 许多 处 理 器 


中 ， 如 在 PowerPC 处 理 器 中 并 不 含有 RCRB。 在 PowerPC 处 理 右 中 ， 


与 处 理 器 系统 相关 的 寄 


存 器 都 存放 在 以 BASE_ADDR 为 起 始 地 址 的 1MB 连续 的 物理 地 址 空间 中 ，PowerPC 处 理 器 


系统 使 用 存储 器 映射 寻 址 方式 访问 这 些 寄 存 器 。 


在 x86 处 理 咒 系统 中 ， 使 用 PCI 总 线 管理 所 有 外 部 设备 ， 这 些 “ 与 处 理 带 系统 相关 的 寄 


存 器 ”被 保存 在 RCRB 中 ， 人 处 理 器 使 用 PCI 总 线 配置 周期 访问 这 些 寄 存 器 。 实 际 上 在 RCRB 


中 包含 的 寄存 带 与 PCle 体系 结构 并 没有 直接 关系 ， 这 些 寄 存 器 应 该 


属于 存储 需 域 的 地 址 区 


域 。x86 处 理 需 的 这 种 做 法 并 非 完 全 合理 ， 在 茶 种 程度 上 容易 使 初学 者 混 痛 存 储 顺 域 与 PCI 


总 线 域 的 区 别 。RCRB 主要 寄存 器 的 含义 如 下 所 示 。 
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映像 


1 EPBAR 寄存 器 


EPBAR 寄存 器 的 大 小 为 8B， 指 向 一 个 4KB 大 小 的 存储 器 区 域 。 处 理 器 使 用 存储 器 映像 
访问 这 段 存 储 器 区 域 ， 并 通过 这 段 存 储 器 区 域 访 问 RCRB 的 扩展 配置 空间 ， 在 表 5-2 
放 的 仅 是 RCRB 的 部 分 扩展 配置 空间 。 

这 段 存 储 器 区 域 描述 RC 的 Egress 端口 属性 ， 包 括 RC 使 用 的 VC0 和 VC1 两 个 虚 通路 的 
信息 。 当 EPBAR 寄存 器 的 “EPBAR Enable” 位 为 1 时 ， 这 段 空 间 有 效 。 这 段 寄存 器 区 
称 为 “Egress Port RCRB” 空 间 ， 系统 软件 可 以 使 用 这 上 段 空间 定义 的 寄存 器 ， 完 成 对 
和 VC0 通路 的 设置 ， 包 括 端口 仲裁 、VC 仲裁 等 一 系列 的 内 容 。 


2 MCHBAR 寄存 器 


MCHBAR 寄存 器 的 大 小 为 8 B， 指 向 一 个 16 KB 大 小 的 存储 器 区 域 。 处 理 器 使 用 存储 器 
寻 址 访问 这 段 存储 器 区 域 。 这 段 存储 器 区 域 描述 GMCH 内 部 使 用 的 一 些 寄存 器 。 当 


MCHBAR 寄存 器 的 “MCHBAR Enable” 位 为 1 时， 这 段 存储 器 区 域 有 效 。 


5S.1. 
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在 这 段 区 域 中 含有 多 组 寄存 器 。 

e Device 0 Memory Mapped LO 寄存 器 组 。 包 括 MEREMAPBAR、GFXREMAPBAR 、 
VCOREMAPBAR 、VC1REMAPBAR 和 PAVPC 寄存 兢 。 

e DRAM Channel Control 寄存 天。 该 寄存 右 用 来 设置 x86 处 理 需 系统 中 的 DRAM 通路 。 
在 Montevina 平台 中 含有 两 个 DRAM 通路 。 这 两 个 DRAM 通路 可 以 独立 使 用 ， 也 可 以 
设置 成 Interleaved 模式 。 

e MCHBAR Clock Control 寄存 器 组 。 由 CLKCFG 和 SSKPD 寄存 器 组 成 ， 其 中 CLKCFG 
寄存 器 可 以 设置 DDR 使 用 的 频率 和 FSB 总 线 的 频率 ; 而 SSKPD 寄存 器 供 BIOS 或 者 
Graphic 驱动 使 用 ， 用 来 保存 一 些 中 间 结 

e Device 0 MCHBAR ACPI Power Management Controls 寄存 需 组 。 该 组 寄存 需 与 x86 处 理 
器 系统 使 用 的 ACPI 有 关 。 

e Device 0 MCHBAR Thermal Management Controls 和 MCHBAR Render Thermal Throttling 
寄存 器 组 。 该 组 寄存 器 与 Montevina 平台 中 的 温度 传感器 相关 。 

e Device 0 MCHBAR DRAM Controls 寄存 右 组 。 这 组 寄存 髓 对 Montevina 平台 中 的 两 个 
DRAM 通路 进行 细 粒 度 的 控制 ， 包 括 这 两 个 DRAM 通路 中 使 用 的 Timing、 延 时 和 各 种 
模式 选择 。 该 寄存 器 组 对 于 需要 设置 DRAM 属性 的 BIOS 工程 师 非 常 重要 。 


3 ”其 他 寄存 器 


在 Device 0 中 还 包含 以 下 寄存 器 。 

e GGC 寄存 器 。 在 x86 处 理 器 系统 中 ， 显 卡 可 以 借用 一 部 分 存储 器 域 的 地 址 空间 ， 该 寄 
存 器 描述 这 段 被 借用 的 存储 器 地 址 空间 。 

e DEVEN 寄存 器 。 该 寄存 需 用 来 使 能 /禁止 在 MCH 中 的 虚拟 PCI 设备 ， 如 显卡 控制 器 
和 其 他 虚拟 设备 。 

e PCIEXBAR 寄存 器 。 该 寄存 器 的 大 小 为 8 B， 指 向 一 个 256 MB 大 小 的 存储 器 区 域 。 
PCle 总 线 可 以 使 用 ECAM 方式 访问 PCI 设备 的 扩展 配置 空间 ，PCIEXBAR 寄存 器 存放 


PCI 配置 空间 的 基地 址 ， 有 关 ECAM 机 制 的 详细 信息 见 第 5. 3. 2 节 。 

e DMIBAR 寄存 器 。 该 寄存 器 的 大 小 为 8 B， 指 向 一 个 4KB 大 小 的 存储 器 区 域 ， 处 理 需 
使 用 存储 器 映像 寻 址 访问 这 段 存储 器 区 域 。 该 寄存 右 描 述 RC 中 的 DMI 接口 。 

e PAM0 ~ PAM6 寄存 器 描述 Shadow BIOS 的 属性 。 

e REMAPBASE 寄存 器 和 REMAPLIMIT 寄存 器 支持 x86 处 理 器 的 Reclaim 机 制 ， 第 5.2 
节 将 详细 介绍 该 机 制 。 

。 SMRAM 寄存 器 和 ESMRAMC 寄存 器 控制 处 理 絮 对 SMRAM 的 访问 。SMRAM 与 x86 处 
理 右 的 SMM 机 制 相关 ， 本 书 对 此 不 做 介绍 。 

e TOM、TOUUD 和 TOLUD 寄存 器 与 处 理 器 系统 的 主 存储 器 管理 相关 ， 分 别 描述 存储 器 
的 物理 大 小 和 存储 器 “ 低 于 4GB” 和 “高 于 4 GB” 地 址 空间 的 使 用 方法 。 第 5.2.3 
节 将 详细 介绍 这 几 个 寄存 器 。 


5.2 Montevina 平台 的 存储 器 空间 的 组 成 结构 


由 上 文 所 述 ， 在 Montevina 平台 中 包含 一 个 Mobile 处 理 器 、MCH 、ICH 和 一 个 无 线 网 卡 
适配器 组 成 。 在 MCH 和 ICH 中 具有 许多 组 成 部 件 ， 本 节 仪 介绍 MCH 和 ICH 中 与 PCI 总 线 
直接 相关 的 部 分 内 容 。 

Montevina 平台 使 用 的 地 址 空间 由 存储 器 域 地 址 空间 和 PCI 总 线 域 地 址 空间 组 成 。 在 In- 
tel 的 x86 处 理 器 系统 中 ， 包 括 Montevina 平台 ， 所 有 的 外 部 设备 都 通过 PCI 总 线 进行 管理 。 
x86 处 理 器 平台 使 用 这 种 方法 便于 对 外 部 设备 统一 管理 ， 但 是 这 种 方法 也 带 来 了 一 些 弊 端 。 
因为 使 用 这 种 方法 时 ，PCI 总 线 域 空间 与 存储 器 域 空间 的 边界 划分 并 不 明晰 。 

Montivina 平台 除了 具有 存储 器 域 、PCI 总 线 域 之 外 ， 还 存在 一 个 DRAM 域 。 所 谓 DRAM 
域 是 指 DRAM 控制 器 所 能 访问 的 地 址 空间 ， 即 从 DRAM 控制 器 的 角度 来 看 ，DRAM 空间 的 
拓扑 结构 。DRAM 域 中 包含 的 地 址 空间 ， 通 俗 地 讲 是 指 主 存储 器 地 址 空间 ， 即 DRAM 控制 
器 能 够 访问 的 地 址 空间 。 

在 Montevina 平台 中 ，DRAM 域 地 址 空间 并 不 能 与 存储 絮 域 地 址 空间 完全 对 应 。 当 人 处理 
器 系统 支持 的 内 存 超过 4 GB 时 ，DRAM 域 的 部 分 空间 需要 使 用 Reclaim 机 制 才能 访问 ， 此 
外 在 DRAM 域 空间 中 ， 有 些 地 址 并 不 能 被 处 理 器 访问 。 比 如 显卡 控制 器 借用 了 一 部 分 
DRAM 空间 ， 这 部 分 空间 可 以 被 显卡 控制 器 访问 ， 但 是 不 能 被 CPU 访问 。x86 处 理 器 由 于 考 
虑 向 前 兼容 ， 一 个 原本 完整 的 DRAM 域 被 划分 得 支离破碎 。 在 Intel 的 x86 处 理 器 中 ,许多 
“不 合理 ”都 是 因为 “向 前 兼容 ”导致 的 。 

在 x86 处 理 器 系统 中 ， 存 储 器 域 由 CPU 能 够 访问 的 地 址 空间 组 成 ， 包 括 DRAM 域 地 址 空 
间 的 一 部 分 ， 一 些 使 用 存储 器 映像 寻 址 的 寄存 器 ?和 PCI 总 线 域 地 址 空间 在 存储 器 域 中 的 映像 。 

而 DRAM 域 由 DRAM 控制 器 所 能 寻 址 的 空间 组 成 。 如 图 5-2 所 示 ， 在 Montevina 平台 
中 ， 存 储 絮 域 与 DRAM 域 的 所 包含 的 部 分 空间 ， 其 地 址 相等 ， 比 如 Legacy Address Range、 
TSEG (Top of Memory Segment) 和 其 他 一 些 DRAM 空间 。 这 里 的 地 址 相等 指 在 存储 需 域 和 


”x86 处 理 器 也 将 使 用 存储 器 映像 寻 址 的 寄存 器 称 为 MMIO (Memory Mapped LO) 。 
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DRAM 域 中 的 地 址 相同 ， 但 是 这 两 个 地 址 的 含义 并 不 相同 。 


存储 器 域 


PCI Memory 
Address Range 
(subtractively 
decoded to DMI) 


Device 2 Device 1 Device 0 


BARs PMBASE BARs 


Independency Programmable Non- 


overlapping Windows 
/ 
党 Main Memory 
TOUUD Base / Reclaim Address 
Range 
Reclaim Limit= Reclaim Base 一 
Reclaim Base+X (64MB Aligned) 
Main Memory 
Address Range 
4GB~、_ 
SS nn 


Device 3 Device 1 
EPKTBAR Mbase 1 PCI Memory 
Address Range 


Independency TOLUD Base ” 
Programmable Non- (64MB Aligned) … 
overlapping Windows 了 

Wd Main Memory 

TOLUD Base /7 Address Range 

(64MB Aligned) 


Legacy Address 


Legacy Address 
Range 


图 5-2 ”Montevina 平台 的 CPU 域 与 DRAM 域 


64 MB 
Aligned 
1 MB Aligned 
64 MB 
Aligned 
OS Visible 
>4GB 
a 64 MB 
OS Invisible : 
Réclain Aligned for 
Reclaim 
GFX Stolen 
Memory 
{1-64MD) 1 MB Aligned 
1 MB Aligned 


OS Visible 
<4GB 


Range 


在 一 个 多 核 处 理 器 系统 中 ， 不 同 的 CPU 所 能 访问 的 地 址 空间 也 不 一 定 相同 ， 其 中 每 一 
个 CPU 都 对 应 一 个 存储 器 域 。 在 这 些 存 储 器 域 中 ， 有 些 空间 是 所 有 CPU 共享 的 ， 有 些 空间 
是 某 个 CPU 的 私有 空间 。 在 多 核 处 理 器 中， 存储 器 域 和 DRANM 域 地 址 空间 的 划分 更 为 复杂 ， 


本 书 对 此 不 做 进一步 说 明 。 


如 图 5-2 所 示 ，x86 处 理 器 将 PCI 总 线 域 和 存储 器 域 进行 混合 编 址 。 但 是 在 图 5-2 中 的 
PCI 总 线 地 址 仅 是 在 存储 器 域 中 的 地 址 ， 即 PCI 总 线 地 址 在 存储 器 域 地 址 空间 的 映像 。 值 得 
注意 的 是 ， 这 个 PCI 总 线 地 址 和 PCI 总 线 域 的 地 址 没有 直接 联系 ， 当 处 理 需 访问 PCI 设备 
时 ， 首 先 使 用 在 存储 器 域 的 PCI 总 线 地 址 ，RC 会 将 存储 器 域 的 地 址 转换 为 PCI 总 线 域 的 地 


址 ， 并 使 用 PCIe 总 线 事务 访问 相应 的 设备 。 
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x86 处 理 吉 和 PowerPC 处 理 器 进行 存储 器 域 到 PCI 总 线 域 的 映射 方法 不 同 。PowerPC 处 
理 需 使 用 Inbound/Outbound 窗口 显 式 地 分 离 存储 器 域 与 PCI 总 线 域 。 而 x86 处 理 右 内 部 并 没 
有 设置 这 类 寄存 器 显 式 分 离 这 些 域 空间 。 但 是 x86 人 处理 器 仍然 区 分 存储 器 域 和 PCI 总 线 域 ， 
虽然 PCI 设备 使 用 的 地 址 在 存储 器 域 和 PCI 总 线 域 中 相同 。 

x86 处 理 器 采用 的 这 种 PCI 总 线 域 与 其 他 处 理 器 有 较 大 的 不 同 ，x86 处 理 器 采用 这 种 设 
计 方 法 可 能 考虑 了 向 前 兼容 。 采 用 这 种 结构 ， 存 储 器 域 和 PCI 总 线 域 之 间 的 界限 并 不 明晰 ， 
但 是 有 利于 外 部 设备 的 统一 管理 。 


5.2.1 Legacy 地 址 空间 


Legacy 地 址 空间 在 存储 器 域 和 DRAM 域 中 都 有 映射 ， 上 且 地 址 相等 ， 这 段 空间 是 x86 处 
理 硕 所 固有 的 一 段 大 小 为 1 MB 的 内 存 空间 ， 它 伴随 着 x86 处 理 需 的 整个 发 展 历程 。Legacy 
地 址 空间 的 大 小 为 1 MB， 其 详细 说 明 如 下 。 
e 0x0000-0000 ~0x0009-FFFF，DOS 使 用 的 640 KB 大 小 的 基本 内 存 空 间 。 目 前 开发 BI- 
0S 的 工程 师 仍 然 在 DOS 下 工作 。 
e 0x000A-0000 ~0x000B-FFFF，Legacy Vidio 空间 ， 大 小 为 128 KB。 这 上 段 空间 作为 VGA 
设备 的 Frame Buffer。 目 前 使 用 的 高 端 显 卡 ， 处 于 VGA 模式 时 ， 也 使 用 这 段 空间 作为 
Frame Buffer。 
e 0x000A-0000 ~0x000B-FFFF，Compatible SMRAM 空间 ， 大 小 为 128 KB。 
® 0x000B- 0000 ~ 0x000B-7FFF，MDA (Monochrome Adapter) 空间 ， 大 小 为 32 KB。 
MDA 是 一 种 非常 老 的 单 色 显示 设备 。 
e 0x000C-0000 ~0x000D-FFFF，ISA 扩展 区 域 ， 大 小 为 128 KB 。 
e 0x000E-0000 ~0x000E-FFFF，BIOS 扩展 区 域 ， 大 小 为 128 KB 。 
e 0x000F-0000 ~ 0x000F-FFFF， 系 统 BIOS 区 域 ， 大 小 为 128 KB。 


5.2.2 DRAM 域 


在 处 理 器 系统 中 ， 可 能 含有 多 个 DRAM 控制 器 ， 可 以 管理 多 个 DRAM 空间 ， 这 些 空间 
可 以 统一 编 址 ， 也 可 以 独立 编 址 ， 从 而 组 成 一 个 或 者 多 个 DRAM 域 。DRAM 域 的 大 小 由 一 
个 处 理 器 系统 中 具有 的 物理 内 存 大 小 决定 ， 在 绝 大 多 数 处 理 器 系统 中 ，DRAM 域 的 物理 地 址 
空间 是 连续 的 ， 其 最 低地 址 为 0x0。DRAM 域 地 址 空间 的 设置 与 处 理 器 系统 使 用 的 DRAM 控 
制 器 相关 。 在 PowerPC 处 理 器 中 ，DRAM 域 的 最 低 物 理 地 址 是 可 变 的 ， 而 且 DRAM 域 的 地 
址 空间 也 可 以 不 连续 。 

而 在 多 数 x86 处 理 器 中 ，DRAM 域 的 物理 地 址 ， 甚 基地 址 不 可 改写 ， 值 为 0x0。 多 数 
BIOS 都 将 DRAM 域 的 地 址 空间 设置 为 一 段 连续 的 地 址 空间 ， 但 是 x86 处 理 器 也 支持 不 连续 
的 DRAM 区 域 。x86 处 理 需 系统 的 DRAM 控制 锅 远 比 Power 处 理 需 复杂 ， 只 是 多 数 系统 软件 
程序 员 并 没有 关心 这 些 细 节 。 

在 Montevina 平台 中 ，DRAM 域 空间 的 大 小 ， 即 x86 人 处理 器 使 用 的 主 存储 器 大 小 ， 保 存 
在 TOM (Top of Memory) 寄存 峰 中 ， 该 寄存 右 在 MCH 的 存储 器 控制 器 中 ， 即 PCI 设备 0 的 
配置 空间 中 。 在 DRAM 域 中 除了 Legacy Address 空间 之 外 ， 还 包括 以 下 几 种 空间 。 
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1. GFX (显卡 控制 器 ) 借用 的 空间 

这 段 空间 的 大 小 为 1 MB ~64 MB， 由 GFX 管理 ，CPU 不 能 访问 这 段 空 间 。 这 段 空间 的 
基地 址 保存 在 GBSM ( Graphics Base of Stolen Memory) 寄存 佑 中， 其 值 为 TOLUD (Top of 
Low Usable DRAM) 寄存 器 的 值 。 

TOLUD 和 GBSM 寄存 器 在 存储 器 控制 器 中 ， 其 中 TOLUD 寄存 器 保存 x86 处 理 器 系统 低 
端 内 存 (小 于 4 GB) 的 大 小 。TOLUD 寄存 器 的 值 由 BIOS 根据 处 理 器 系统 的 配置 决定 ， 该 
寄存 器 的 详细 描述 见 下 文 。 

2. TSEG 空间 

TSEG 空间 ， 这 段 空 间 的 大 小 为 1 MB ~8 MB。 这 有 段 空间 仅 在 CPU 进入 SMM 模式 时 ， 才 

能 够 被 CPU 访问 。 这 段 空间 的 基地 址 保存 在 TSEGMB (TESG Memory Base) 寄存 器 中 ， 其 
值 为 TOLUD 寄存 器 减 去 CFX 借用 空间 和 TESG 空间 的 大 小 。TSECMB 寄存 器 也 保存 在 存储 
器 控制 器 中 。 在 x86 处 理 器 中 ， 还 有 一 段 进 入 SMM 模式 才能 访问 的 地 址 空间 ，HSEG 空间 。 
这 段 空 间 被 处 理 器 映射 到 高 端 地 址 ，HSEG 和 TSEG 空间 的 区 别 在 于 TSEG 空间 是 可 Cache 
的 ， 而 HSEG 空间 不 可 Cache。 
3. 小 于 4 GB 的 操作 系统 可 用 内 存 空间 

在 Montevina 平台 中 ， 如 果 主 存储 顺 的 大 小 超过 4 GB ， 那 么 这 段 物理 空间 将 被 分 为 三 段 
供 操作 系统 使 用 ， 分 别 是 小 于 4 GB 的 空间 、 大 于 4 GB 的 空间 和 Reclaim 空间 。 

如 图 5-2 所 示 ， 这 几 段 空间 在 存储 器 域 中 的 地 址 并 不 连续 。 但 是 在 DRAM 域 中 ， 这 些 
地 址 空 NE 并 从 地 址 0 到 TOM。 而 在 存储 器 域 中 ， 小 于 4 GB 的 内 存 空间 从 1 MB 开 
始 到 TOLUD 结 

4. OS Invisible Reclaim 空间 

对 于 DRAM 控制 右 而 言 ， 这 上 段 空间 是 存在 的 ， 不 过 因为 这 段 地 址 和 存储 器 域 中 的 PCI 

总 线 地 址 空间 重合 ， 因 此 CPU 不 能 直接 访问 这 段 物理 内 存 。 当 处 理 器 使 能 Reclaim 机 制 

(也 称 为 Remapping 机 制 ) 后 ， CPU 才能 访问 这 段 地 址 空间 。 

在 一 个 x86 处 理 器 系统 中 ， 当 实际 的 物理 内 存 大 于 TOLUD 加 上 GFX 借用 空间 的 大 小 
时 ，DRAM 域 中 才 含 有 这 段 空间 ， 此 时 CPU 才 有 必要 启动 Reclaim 机 制 ， 将 这 段 内 存 地 址 空 
间 映 射 到 存储 器 域 中 。 当 然 CPU 也 可 以 不 启动 Reclaim 机 制 ， 放 弃 对 这 段 内 存 空间 的 使 用 。 

5. 大 于 4 GB 的 操作 系统 可 用 空间 

这 段 空 间 在 存储 器 域 和 DRAM 域 中 的 地 址 相等 ， 只 有 实际 的 物理 内 存 大 于 4 GB 时 ， 存 
储 器 域 和 DRAM 域 中 才 有 这 段 空间 。 

6. ME (Manageability Engine) -UMA 借用 的 空间 

其 大 小 为 1~64 MB。 其 基地 址 为 TOM 寄存 器 中 的 值 减 去 ME-UMA 借用 空间 的 大 小 。 由 
于 TOM 寄存 器 中 的 值 需要 64 MB 对 界 ， 因 此 有 时 在 其 下 会 出 现 一 个 0 ~ 63 MB 大 小 的 空洞 。 
这 段 空 洞 是 被 浪费 的 空间 ， 除 了 DRAM 控制 器 可 以 访问 这 段 空 间 外 ， 在 处 理 器 系统 中 的 其 
他 部 件 均 不 能 访问 这 段 空 间 。 


5.2.3 存储 器 域 


在 x86 处 理 器 系统 中 ,除了 具有 DRAM 域 地 址 空间 外 ,还 具有 PCI 地 址 空间 。CPU 访 
问 这 些 地 址 空间 时 ， 需 要 进行 地 址 转换 ，CPU 访问 DRAM 域 时 ， 需 要 进行 存储 器 域 地 址 空 
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间 到 DRAM 域 地 址 空间 的 转换 ，CPU 访问 PCI 总 线 域 时 ， 需 要 进行 存储 器 域 地 址 空间 到 PCI 
总 线 域 地 址 空间 的 转换 。 在 x86 处 理 器 中 ， 大 多 数 DRAM 域 中 的 地 址 与 存储 器 域 中 的 地 址 
一 一 对 应 而 且 相 等， 而 存储 器 域 的 PCI 地 址 与 PCI 总 线 域 的 地 址 也 一 一 对 应 而 且 相 等 。 


在 x86 处 理 嚣 中， 并 没有 提 及 地 址 
存 人 8 | 一 ~、 


转换 部 件 ， 但 是 这 个 地 址 转换 部 件 的 概 

念 是 存在 于 芯片 设计 中 的 。CPU 访问 | 
DRAM 或 者 PCI 设备 时 ， 首 先 需要 访问 
存储 器 域 的 地 址 ， 这 些 发 送 到 存储 器 域 
的 数据 请 求 首 先 通 过 地 址 转换 部 件 ， 并 
由 地 址 转换 部 件 决定 这 些 数据 请 求 是 发 
向 PCI 总 线 域 、DRAM 域 还 是 其 他 域 空 
间 。 在 x86 处 理 器 中 ， 这 些 地 址 域 的 关 
系 如 图 5-3 所 示 。 

在 Montevina 平台 中 ,存储器 域 中 的 
Legacy Address 空间 的 地 址 与 DRAM 域 空 
间 的 地 址 一 一 对 应 ， 而 且 地 址 相等 。 当 图 5-3 存储 涡 域 与 PCDRAM 域 
CPU 访问 这 段 空间 时 ， 地 址 转换 部 件 直接 将 发 向 存储 器 域 的 数据 请 求 转发 到 DRAM 域 。 而 
CPU 访问 其 他 段 空 间 时 ， 需 要 分 别 进行 处 理 。 

1. 1MB ~TOLUD 空间 

这 段 空 间 由 三 部 分 组 成 ，GFX Stolen Memory 空间 、TSEG 和 Main Memory Address 空间 。 
当 CPU 访问 GFX Stolen Memory 空间 时 ， 地 址 转换 部 件 将 拒绝 这 次 访问 ， 因 为 GFX Stolen 
Memory 空间 是 GFX 控制 右 的 私有 空间 ，CPU 不 能 对 这 段 空 间 进 行 操作 。 

TSEG 空间 只 能 在 CPU 处 于 SMM 状态 时 才能 访问 ， 和 否则 处 理 器 内 部 的 地 址 转换 部 件 也 
将 拒绝 这 次 访问 。 

Main Memory Address 空间 与 DRAM 域 中 小 于 4 GB 的 操作 系统 可 用 空间 一 一 对 应 且 地 址 
相等 ， 当 CPU 访问 这 段 地 址 空间 时 ， 地 址 转换 部 件 直 接 将 这 次 访问 转发 到 DRAM 域 ， 并 由 
存储 器 控制 器 访问 这 段 空间 。 这 段 空间 也 是 存储 器 域 中 第 1 段 “ 主 存储 器 ”空间 。 

2. TOLUD ~4 GB 空间 

这 段 空间 是 存储 器 域 中 的 PCI 总 线 地 址 空间 ， 当 CPU 访问 这 段 地 址 空间 时 ， 地 址 转换 
部 件 将 这 次 访问 转发 给 HOST 主 桥 或 者 RC， 之 后 由 HOST 主 桥 或 者 RC 将 CPU 的 这 次 数据 
访问 转化 为 PCI 总 线 的 总 线 事务 ， 之 后 再 发 送 到 对 应 的 PCI 设备 。 在 x86 处 理 器 中 ， 存 储 器 
域 的 PCI 总 线 地 址 空间 与 PCI 总 线 域 的 地 址 空间 一 一 对 应 ， 其 值 完全 相等 。 一 些 采用 存储 器 
映像 寻 址 的 寄存 器 也 存放 在 这 段 空 间 中 ， 如 APIC 中 断 控制 器 使 用 的 地 址 空间 。 

3. 4GB ~TOUUD 空间 

这 段 空间 由 Main Memory Address 空间 和 Main Memory Reclaim Address 空间 组 成 。 如 
图 5-2 所 示 , 在 一 个 x86 处 理 器 系统 中 ， 如 果实 际 的 物理 内 存 空间 大 于 4 GB 时 ,存储 器 域 
中 将 含有 第 2 段 Main Memory Address 空间 。 

这 段 空间 与 DRAM 域 中 大 于 4 GB 的 操作 系统 可 用 空间 一 一 对 应 ， 而 且 地 址 相等 ，CPU 
访问 这 段 地 址 空间 时 ， 地 址 转换 部 件 直 接 将 这 次 访问 转发 到 DRAM 域 ， 这 段 空 间 的 上 界 为 
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TOM 减 去 ME (Manageability Engine) 借用 的 空间 。ME 借用 的 地 址 空间 不 能 被 CPU 访问 ， 
本 节 对 这 段 空间 不 做 进一步 介绍 。 

4，Reclaim 空间 

如 果 CPU 使 能 了 Reclaim 机 制 ， 则 存储 器 域 具有 这 段 空 间 。 在 x86 处 理 器 中 存储 器 域 与 
DRAM 域 基本 上 一 一 对 应 而 且 地 址 相等 ， 但 是 TOLUD ~4 GB 这 段 空 间 例 外 。 存 储 器 域 将 这 
段 空 间 分 配 为 PCI 总 线 地 址 空间 ， 因 此 CPU 不 能 直接 用 “相同 的 地 址 ”访问 DRAM 这 段 空 
间 。 只 有 x86 处 理 器 使 用 Reclaim 机 制 ， 将 DRAM 域 的 “0S Invisible Reclaim 空间 ”映射 到 
存储 器 域 的 “Reclaim Base ~ TOUUD” 这 段 空间 后 ， 处 理 央 才能 访问 这 段 空 间 。 

这 段 空 间 也 是 x86 处 理 器 的 第 3 段 存 储 器 空间 。 值 得 注意 的 是 这 段 存储 器 空间 在 存储 器 
域 中 的 地 址 与 DRAM 域 中 的 地 址 并 不 相等 。 

当 Reclaim 机 制 使 能 后 ，Reclaim Base 的 值 为 TOM 减 去 ME 借用 的 空间 ， 这 段 空间 的 大 
小 等 于 4 GB 减 去 TOLUD (64 MB 对 界 ) ， 然 后 再 减 去 GFX 借用 的 空间 大 小 。 此 时 TOUUD 
的 值 等 于 Reclaim Base 加 上 Reclaim 空间 的 大 小 。 

5.， TOUUD ~64 GB 空间 

在 x86 处 理 器 系统 中 ，PCI 总 线 需要 的 空间 大 于 TOLUD ~4 GB 这 段 区 域 时 ， 将 使 用 这 
段 空 间 映 射 剩 余 的 PCI 总 线 地 址 空间 ， 这 上段 空间 的 使 用 方法 与 BIOS 的 设置 有 关 。 在 Montev- 
ina 平台 中 ，CPU 使 用 的 物理 地 址 为 36 位 ， 因 此 存储 器 域 的 最 大 物理 地 址 空间 为 64 GB。 


5. 3 存储 器 域 的 PCI 总 线 地 址 空间 


由 图 5-2 可 知 ，Montevina 平台 中 存储 器 域 的 PCI 总 线 地 址 空间 分 为 TOLUD ~4 GB 和 
TOUUD ~64 GB 这 两 段 空 间 。 这 两 段 空间 都 可 以 映射 PCI 设备 使 用 的 空间 ，x86 处 理 器 为 了 
实现 向 前 兼容 ， 并 没有 取消 TOLUD ~4 GB 这 段 空 间 ， 而 这 段 空 间 的 存在 将 存储 器 域 的 
DRAM 空间 一 分 为 二 。 


5.3.1 PCI 设备 使 用 的 地 址 空间 


TOLUD ~4 GB 这 段 PCI 总 线 地 址 空间 主要 映射 和 ICH 相连 的 PCI 设备 地 址 空间 ， 此 外 
还 包括 EPBAR ( Egress Port Base Address) 指向 的 空间 ， 以 及 MCHBAR 和 DMIBAR 指向 的 空 
间 等 。 除 了 PCI 总 线 地 址 空间 外 ， 这 段 空间 还 包括 High BIOS、APIC (Advanced Programming 
Interrupt Controller) 和 FSB Interrupts 地 址 空间 ， 其 详细 描述 如 图 5-4 所 示 。 

其 中 APIC (Advanced Programmable Interrupt Controller) 包括 IO APIC 和 Local APIC 占 
用 0xFEC0-0000 ~0xFECF-FFFF 这 段 地 址 空间 。APIC 是 x86 处 理 器 使 用 的 中 断 控制 器 ， 负 
责 管理 外 部 和 CPU 之 间 的 中 断 请 求 。 而 HESG 空间 占用 0xFEDA- 0000 ~ 0xFEDB-FFFF 这 有 段 
地 址 空间 ， 这 段 空间 在 CPU 内 核 处 于 SMM 状态 时 ， 才 能 访问 。 

FSB Interrupts 存储 器 空间 与 MSI 中 断 机 制 相关 ，PCIe 设备 向 这 段 存储 器 空间 进行 写 操 
作 时 ，MCH 将 这 个 写 操作 转换 为 FSB 总 线 的 Interrupt Message 总 线 事务 。 

值得 注意 的 是 ， 在 x86 处 理 器 中 Local APCI 使 用 的 寄存 器 在 0xFEE0- 0000 ~ 0xFEE0- 
03F0 区 域 之 间 ， 在 这 段 区 域 中 ， 有 一 些 Reserved 寄存 器 ， 如 0xFEE0- 0000 ~ 0xFEE0- 0010， 
系统 软件 不 能 操作 这 些 寄存 器 。Intel 并 没有 公开 这 些 寄存 器 的 具体 含义 ， 但 是 从 原理 上 推 
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图 5-4 TOLUD ~4 GB PCI 总 线 地 址 空间 


断 ， 这 段 寄 存 器 所 使 用 的 地 址 正好 是 PCle 设备 使 用 MSI-X 中 断 方式 向 APCI ID 为 0 的 CPU 
发 送 中 断 所 使 用 的 地 址 ， 有 关 x86 处 理 器 MSI-X 中 断 方式 的 详细 说 明 见 第 10. 3 节 。 

在 x86 处 理 器 中 ，Local APIC 寄存 需 空 间 是 可 变 的 ， 其 基地 址 保存 在 IA32_APIC_BASE 
寄存 器 中 ， 该 寄存 器 是 x86 处 理 需 的 MSR (Model Specific Register) 寄存 器 , x86 处 理 器 使 用 
RDMSR 和 WRMSR 指令 访问 这 些 寄存 器 。 

PCI Express 配置 空间 占用 0xE000-0000 ~ 0xEFFF-FFFF 这 段 地 址 空间 ， 下 节 将 详细 解释 
这 段 空间 的 使 用 方法 。DMI Interface 负 向 译 码 空 间 被 分 为 若干 段 ， 用 来 映射 ICH 使 用 的 PCI 
总 线 地 址 空间 。 在 ICH 中 提供 了 许多 PCI 设备 ， 包 括 内 骨 在 ICH 中 的 虚拟 PCI 设备 和 PCIe 
总 线 端 口 。 这 些 PCI 设备 的 BAR 空间 被 映射 到 这 段 空间 。 

Montevina 平台 使 用 DMI 连接 MCH 和 ICH。 当 CPU 对 PCI 空间 发 起 数据 请 求 时 ， 这 些 
数据 首先 到 达 MCH， 当 MCH 中 的 所 有 设备 都 不 响应 这 个 数据 请 求 时 ，MCH 中 的 DMI 接口 
设备 将 使 用 负 向 译 码 方式 被 动 地 接收 这 个 数据 请 求 ， 并 将 其 转发 到 ICH 中 的 DMI 接口 设备 ， 
从 而 到 达 ICH。 因 此 Montevina 平台 将 这 段 空间 称 为 “ 负 癌 译 码 空间 ”。 由 以 上 说 明 可 以 发 
现 与 MCH 连接 的 PCIe 设备 的 访问 延 时 小 于 与 ICH 连接 中 的 PCle 设备 。 


5.3.2 PCIe 总 线 的 配置 空间 


x86 处 理 右 使 用 了 两 种 机 制 访问 PCle 设备 的 扩展 配置 空间 。 首 先 x86 处 理 需 提供 了 两 个 
IO 端口 寄存 器 ，CONFIG_ADDRESS 和 CONFIG_DATA 寄存 器 ， 使 用 这 两 个 寄存 器 访问 EP 
配置 空间 的 方法 与 访问 PCI 设备 类 似 ， 详 见 第 2.2.4 节 。 然 而 这 两 个 寄存 器 只 能 访问 PCI 设 
备 的 基本 配置 空间 ， 即 PCIe 设备 配置 空间 的 前 256 个 字 节 ， 而 之 后 的 扩展 配置 空间 需要 通 
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过 ECAM 方式 进行 访问 。 

在 Montevina 平台 中 ，PCIe 设备 配置 空间 的 基地 址 保存 在 PCIEXBAR 寄存 器 中 ， 这 段 地 
址 空间 的 大 小 为 256 MB, 且 为 236 MB 对 界 。 当 CPU 对 PCIe 设备 配置 空间 ?进行 读 写 访问 
时 ,MCH 将 这 个 存储 器 读 写 请 求 转 换 为 PCI 配置 读 写 总 线 周 期 后 ， 再 发 送 到 相应 的 PCIe 设 
备 中 。PCIe 总 线 规范 将 这 种 “对 PCIe 设备 配置 空间 ”的 读 写 访问 方式 称 为 ECAM 机 制 。 

ECAM 机 制 的 主要 原理 是 ， 将 处 理 器 系统 中 所 有 PCle 设备 的 配置 空间 映射 到 一 段 地 址 
连续 的 存储 器 域 的 地 址 空间 中 。CPU 可 以 直接 对 这 段 特殊 的 存储 器 域 地 址 空间 进行 访问 ， 
从 而 访问 PCIe 设备 的 配置 空间 。 

使 用 ECAM 机 制 与 使 用 CONFIG_ADDRESS 和 CONFIG_DATA 这 对 寄存 器 ， 间 接 访问 
PCIe 设备 的 配置 空间 有 较 大 的 不 同 。ECAM 机 制 是 一 种 直接 寻 址 方式 ， 在 x86 处 理 器 系统 
中 ， 只 有 使 用 ECAM 方式 才 可 以 访问 PCIe 设备 的 扩展 配置 空间 。 而 其 他 处 理 器 ， 如 Power- 
PC 处 理 器 ， 即 便 不 使 用 上 ECAM 方式 ， 也 可 以 访问 PCIe 设备 的 扩展 配置 空间 ， 在 MPC8548 
处 理 器 的 PEX_CONFIG_ADDR 寄存 器 ?中 ,设置 了 EXT_REGN 字段 (由 4 位 组 成 ) ， 该 字段 
可 以 与 REGN 字段 组 成 一 个 10 位 的 字段 ， 从 而 可 以 访问 所 有 扩展 的 PCIe 设备 配置 空间 。 

Linux 系统 定义 了 raw_pci_read 和 raw_pci_write 两 个 图 数 ， 对 PCI 设备 配置 空间 进行 读 
写 ， 这 两 个 函数 的 实现 在 . /arch/x86/pci/common. ec 文件 中 ， 如 源 代码 5-1 所 示 。 


源 代码 5-1 raw_pci_read 和 raw_pci_write 函数 


int raw_pci_read( unsigned int domain, unsigned int bus, unsigned int devfn, 


int reg, int len, u32 * val) 


i (domain = = 0 && reg < 256 && raw_pci_ops) 
return raw_pci_ops -> read( domain, bus, devfn, reg, len, val); 
if (raw_pci_ext_ops) 
return raw_pci_ext_ops -> read( domain, bus, devfn, reg, len, val); 


return -EINVAL; 


int raw_pci_write( unsigned int domain, unsigned int bus, unsigned int devfn, 


int reg, int len, u32 val) 


if (domain = = 0 && reg < 256 && raw_pci_ops) 
return raw_pci_ops -write( domain, bus, devfn, reg, len, val); 
if (raw_pci_ext_ops) 
return raw_pci_ext_ops -write( domain, bus, devfn, reg, len, val); 


return -EINVAL; 


”这 段 空 间 属于 存储 器 域 地 址 空间 。 
外 “该 寄存 器 与 PCL_ CONFIG_ADDR 寄存 器 类 似 ， 用 来 访问 PCIe 设备 的 配置 空间 。 
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由 以 上 代码 ， 可 以 发 现 当 raw_pci_read/write 函数 访问 的 配置 寄存 器 号 大 于 256B 时 ,该 
函数 将 调用 raw_pci_ext_ops 图 数 ， 和 否则 调用 raw_pci_ops 困 数 。 其 中 raw_pci_ops 函数 指针 使 
用 0xCF8 和 0xCFC 两 个 IO 端口 寄存 器 访问 PCI 总 线 配置 空间 ， 而 raw_pci_ext_ops 函数 使 
用 ECAM 方式 访问 PCI 总 线 配 置 空间 。 

在 Linux x86 系统 中 ，raw_pci_ext_ops 水 数 相 当 于 pci_mmcfg 函数 ， 而 pci_mmcfg 函数 指 
针 分 别 指向 两 个 函数 ， 为 pci_mmcfg_read 和 pci_mmcfg_write 水 数 。 这 两 个 函数 使 用 直接 寻 
址 方式 ( 即 ECAM 方式 ) 访问 当前 处 理 器 系统 中 所 有 PCle 设备 的 扩展 配置 空间 ， 其 函数 原 
型 在 . /arch/x86/pci/mmconfig_32.c 文件 中 。 

Montevina 平台 使 用 256 MB 物理 空间 映射 PCI 设备 的 配置 寄存 器 ， 因 为 在 Montevina 平 
台中 有 一 棵 PCI 总 线 树 ， 因 此 最 多 具有 256 条 PCI 总 线 ， 每 一 条 PCI 总 线 最 多 可 以 挂 接 32 
个 PCI 设 备 ， 每 一 个 设备 最 多 有 8 个 Function， 而 在 每 一 个 Function 中 最 大 的 PCI 总 线 配置 
寄存 带 空 间 为 4 KB。 

因此 将 一 棵 PCI 总 线 树 上 所 有 PCI 设备 的 配置 空间 采用 一 一 映射 的 方式 对 应 到 存储 器 域 
空间 时 ， 共 需要 1 MB 空间 ， 而 一 个 HOST 主 桥 可 以 管理 的 PCI 总 线 为 256 条 。 为 此 Montevi- 
na 平台 共 提 供 了 256 MB 大 小 的 空间 ， 其 基地 址 在 PCIEXBAR 寄存 器 中 ， 这 段 存储 器 域 的 地 
址 空间 与 PCI 总 线 的 配置 寄存 器 的 对 应 关系 如 表 5-3 所 示 。 


表 5-3 PCIEXBAR 空间 与 PCI 总 线 配置 寄存 器 的 对 应 关系 


地 址 偏 移 PCI 总 线 的 配置 空间 
A [32:28] 与 PCIEXBAR 寄存 融 一 致 
A [27:20] Bus Number 
A [19:15] Device Number 
A [14:12] Function Number 
A [11:8] Extended Register Number 
A [7:2] Register Number 
A [1:0] 用 作 字 节 使 能 
当 CPU 对 PCIEXBAR 地 址 空间 进行 访问 时 ，MCH 或 者 ICH 将 根据 上 表 所 示 的 规则 ， 将 


这 次 存储 器 访问 转化 对 PCI 总 线 的 某 个 设备 进行 的 配置 读 写 访问 。 如 果 当 CPU 对 PCIEX- 
BAR +0x0811 - 0000 这 个 地 址 进行 访问 时 ，MCH 将 这 次 地 址 访问 转换 为 对 Bus 号 为 0x81 
(A [27:20] 为 0x81) ，Device 号 为 1 (A [19:15] 为 1) ， 且 Function 号 为 0 的 PCI 设 备 配 
置 空间 的 访问 ， 访 问 的 寄存 器 为 0x0 (A [11:2] 为 0)。 

虽然 采用 ECAM 方式 可 以 访问 之 前 使 用 CONFIG_DATA 和 CONFIG_ADDRESS 寄存 器 不 
能 访问 的 PCI 扩展 配置 寄存 器 空间 ， 但 是 也 带 来 了 一 些 问题 。 在 一 个 处 理 器 系统 中 ， 同 一 条 
PCI 总 线 上 的 Device Number 不 一 定 连续 ， 而 且 在 多 数 PCI 设备 中 也 不 会 有 8 个 Function ， 这 
将 造成 PCIEXBAR 空间 会 留 有 许多 空洞 。 虽 然 Montevina 平台 提供 了 256 MB 的 PCle 设备 使 
用 的 配置 空间 ， 但 是 这 些 空间 的 实际 利用 率 较 低 。 

PowerPC 处 理 器 也 可 以 使 用 ECAM 方式 映射 PCI 配置 空间 ， 如 MPC8548 处 理 器 可 以 使 
用 PCIe 桥 中 的 Outbound 寄存 器 (PEXOWARn) 将 PCI 配置 空间 映射 到 存储 器 域 。 此 外 
PowerPC 人 处理 器 还 可 以 使 用 PEX_CFG_DATA 和 PEX_CFG_ADDR 这 两 个 寄存 器 访问 扩展 
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PCIe 设备 的 配置 空间 。 其 中 PEX_CONFIG_ADDR 寄存 器 的 结构 如 图 5-5 所 示 。 
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1 3 4 7 8 15 16 20 21 23 24 29 30 31 
ee mw [ml | wm 


Enable bit(1=enabled,0=disabled) Function Number 


图 5-5 PEX_CONFIG_ADDR 寄存 器 的 结构 


PEX_CONFIG_ADDR 寄存 器 保存 当前 PCIe 设备 在 处 理 器 系统 中 的 ID 号 ， 该 寄存 器 的 各 
个 字段 的 描述 如 下 。 
e Enable 位 。 该 位 为 1 表示 使 能 HOST 处 理 器 对 PCI 配置 空间 的 访问 ， 当 HOST 处 理 器 
对 PEX_CONFIG_DATA 寄存 器 进行 访问 时 ，HOST 主 桥 将 对 这 个 寄存 器 的 访问 转换 为 
PCI 配置 读 写 周期 并 发 送 到 PCI 总 线 上 。 
e BUSN 字段 记录 PCI 设备 所 在 的 总 线 号 。 
e DEVN 字段 记录 PCI 设备 的 设备 号 。 
e FUNCN 字段 记录 PCI 设备 的 功能 号 。 
eEXTREGN 和 REGN 字段 ， 共 10 位， 记录 PCI 设 备 的 配置 寄存 器 号 。PowerPC 处 
理 器 使 用 这 两 个 字段 组 成 10 位 地 址 空间 ， 从 而 可 以 访问 PCIe 设备 使 用 的 全 部 配 
置 空间 。 
从 原理 上 讲 ，x86 处 理 器 也 可 以 使 用 这 种 方式 访问 扩展 的 PCI 配置 空间 ,但 是 x86 处 理 
器 没有 采用 这 种 方式 ， 而 是 使 用 ECAM 机 制 访问 扩展 的 配置 空间 。 这 种 方式 将 不 可 避免 地 
在 存储 器 域 占 用 一 段 专 用 的 地 址 空间 。 而 这 段 地 址 空间 的 使 用 效率 较 低 ， 因 为 在 一 条 PCI 总 
线 上 ，PCIe 设备 不 会 使 用 所 有 的 设备 号 ， 而 且 每 一 个 PCIe 设备 也 不 会 使 用 所 有 的 Function 
号 ， 因 此 在 这 段 地址 空间 中 ， 有 许多 空间 没有 被 充分 利用 。 


5.4 小 结 


本 章 较为 详细 地 介绍 了 Montevina 平台 与 PCle 总 线 相关 的 内 容 。 理 解 PCle 总 线 必须 建 
立 在 理解 处 理 器 系统 的 基础 之 上 ， 而 Intel 提供 的 处 理 器 平台 无 疑 是 学 习 PCIe 总 线 最 合适 的 
平台 。Intel 是 PCIe 总 线 的 缔造 者 ， 而 且 总 是 率先 支持 PCIe 规范 提出 的 最 新 功能 。 和 硕 望 读者 
能 够 在 充分 理解 处 理 器 平台 的 基础 上 ， 进 一 步 理 解 PCIe 总 线 的 细节 知识 。 

本 章 因为 篇 幅 有 限 ， 并 不 能 对 Intel 的 处 理 吕 平台 进行 详细 分 析 与 介绍 。 对 这 部 分 内 容 有 
兴趣 的 读者 ， 可 以 首先 阅读 Intel 提供 的 Intel 64 and IA32 Architectures Software Developer " s 
Manual 从 书 (可 以 在 http://www. intel. com/products/processor/manuals 中 下 载 ) 。 

读者 在 获得 这 些 入 门 知 识 之 后 ， 可 以 进一步 阅读 与 Intel 处 理 器 相关 的 其 他 知识 。 目 前 
Intel 并 没有 完全 公开 其 处 理 器 平台 的 详细 资料 。 但 是 从 已 有 的 资料 中 ， 也 可 以 看 到 Intel 在 
处 理 吉 领域 的 成 就 。 目 前 Intel 在 这 个 领域 处 于 无 可 争议 的 领袖 地 位 。Intel 的 处理 器 平台 
为 向 前 兼容 的 缘故 ， 有 些 部 件 的 实现 并 不 完美 ， 这 些 不 完美 是 历史 原因 造成 的 。 
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第 6 但 PCIe 总 线 的 事务 层 


事务 层 是 PCIe 总 线 层 次 结构 的 最 高 层 ， 该 层次 将 接收 PCIe 设备 核心 层 的 数据 请 求 ， 并 
将 其 转换 为 PCIe 总 线 事务 ，PCIe 总 线 使 用 的 这 些 总 线 事务 在 TLP 头 中 定义 。PCIe 总 线 继承 
了 PCLLPCI-X 总 线 的 大 多 数 总 线 事 务 ， 如 存储 器 读 写 、LO 读 写 、 配 置 读 写 总 线 事务 ， 并 增 
加 了 Message 总 线 事 务 和 原子 操作 等 总 线 事务 。 

本 节 重 点 介绍 与 数据 传送 密切 相关 的 总 线 事 务 ， 如 存储 器 、LLO、 配 置 读 写 总 线 事务 。 
在 PCle 总 线 中 ，Non-Posted 总 线 事务 分 两 部 分 进行 ， 首 先是 发 送 端 向 接收 端 提 交 总 线 读 写 
请 求 ， 之 后 接收 端 再 向 发 送 端 发 送 完 成 (Completion) 报 文 。PCIe 总 线 使 用 Split 传送 方式 
处 理 所 有 Non-Posted 总 线 事务 ， 存 储 器 读 、1/O 读 写 和 配置 读 写 这 些 Non-Posted 总 线 事务 都 
使 用 Split 传送 方式 。PCle 的 事务 层 还 支持 流量 控制 和 虚 通 路 管理 等 一 系列 特性 ， 而 PCI 总 
线 并 不 支持 这 些 新 的 特性 。 

在 PCle 总 线 中 ， 不 同 的 总 线 事务 采用 的 路 由 方式 不 相同 。PCIe 总 线 继承 了 PCI 总 线 的 
地 址 路 由 和 ID 路 由 方式 ， 并 添加 了 “ 隐 式 路 由 ”方式 。 

PCIe 总 线 使 用 的 数据 报 文 首先 在 事务 层 中 形成 ， 这 个 数据 报 文 也 称 为 事务 层 数据 报 文 ， 
即 TLP。TLP 在 经 过 数据 链 路 层 时 被 加 上 Sequence Number 前 级 和 CRC 后 级 ， 然后 发 向 物 
理 层 。 

数据 链 路 层 还 可 以 产生 DLLP (Data Link Layer Packet)。DLLP 和 TLP 没有 直接 关系 。 
DLLP 是 产生 于 数据 链 路 层 ， 终 止 于 数据 链 路 层 ， 并 不 会 传递 到 事务 层 。DLLP 不 是 TLP 加 
上 前 级 和 后 缀 形成 的 。 数 据 链 路 层 的 报 文 DLLP 通过 物理 层 时 ， 需 要 经 过 8/10b 编码 ， 然 后 
再 进行 发 送 。 而 数据 的 接收 过 程 是 发 送 过 程 的 逆 过 程 。 


6. 1 TLP 的 格式 


当 处 理 器 或 者 其 他 PCIe 设备 访问 PCIe 设备 时 ， 所 传送 的 数据 报 文 首先 通过 事务 层 被 封 
装 为 一 个 或 者 多 个 TLP， 之 后 才能 通过 PCIe 总 线 的 各 个 层次 发 送出 去 。TLP 的 基本 格式 如 
图 6-1 所 示 。 


TLP Prefix TLP Prefix 4 , 
(Optional) (Optional) TLP Head Data Payload TLP Digest(Optional) 


图 6-1 TLP 的 格式 


一 个 完整 的 TLP 由 1 个 或 者 多 个 TLP Prefix、TLP 头 、Data Payload (数据 有 效 负 载 ) 和 
TLP Digest 组 成 。TLP 头 是 TLP 最 重要 的 标志 ， 不 同 的 TLP 其 头 的 定义 并 不 相同 。TLP 头 包 
含 了 当前 TLP 的 总 线 事务 类 型 、 路 由 信息 等 一 系列 信息 。 在 一 个 TLP 中 ，Data Payload 的 长 
度 可 变 ， 最 小 为 0， 最 大 为 1024DW。 
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TLP Digest 是 一 个 可 选项 , 一 个 TLP 是 否 需要 TLP Digest 由 TLP 头 决定 。Data Payload 也 
是 一 个 可 选项 ， 有 些 TLP 并 不 需要 Data Payload， 如 存储 器 读 请 求 、 配 置 和 1/0 写 完成 TLP 
并 不 需要 Data Payload。 

TLP Prefix 由 PCIe V2. 1 总 线 规范 引入 ， 分 为 Local TLP Prefix 和 EP-EP TLP Prefix 两 类 。 
其 中 Local TLP Prefix 的 主要 作用 是 在 PCIe 链 路 的 两 端 传递 消息 ， 而 EP-EP TLP Prefix 的 主 
要 作用 是 在 发 送 设 备 和 接收 设备 之 间 传 递 消 息 。 设 置 TLP Prefix 的 主要 目的 是 为 了 扩展 TLP 
头 ， 并 以 此 支持 PCIe V2. 1 规范 的 一 些 新 的 功能 

TIP 头 由 3 个 或 者 4 个 双 字 (DW) 组 成 。 其 中 第 一 个 双 字 中 保存 通用 TLP 头 ， 其 他 字 
段 与 通用 TLP 头 的 Type 字段 相关 。 一 个 通用 TLP 头 由 Fmt、Type 、TC 、Length 等 字段 组 成 ， 
如 图 6-2 所 示 。 


寺 站 二 42 +3 
716~4 3 21 0|17|6|5~4l3~2|I1~0 了 ss 
ey Er CE 


Byte 4 与 Type 字段 相关 
Byte 8 


Byte 12 


图 6-2 通用 TLP 头 格式 


如 果 存 储 器 读 写 TLP 支持 64 位 地 址 模式 时 ，TLP 头 的 长 度 为 4DW， 否 则 为 3DW。 而 完 
| Byte 15 的 格式 
与 TLP 相关 ， 下 文 将 结合 具体 的 TLP 介绍 这 些 字 段 。 

6.1.1 通用 TLP 头 的 Fmt 字段 和 Type 字段 

Fmt 和 Type 字段 确认 当前 TLP 使 用 的 总 线 事务 ，TLP 头 的 大 小 是 由 3 个 双 字 还 是 4 个 双 

字 组 成 ， 当 前 TLP 是 否 包含 有 效 负载 。 其 具体 含义 如 表 6-1 所 示 。 
表 6-1 Fmt [1:0] 字段 


Fmt [2:0] TLP 的 格式 
0b000 TLP 大 小 为 3 个 双 字 ， 不 带 数 据 
0b001 TLP 大 小 为 4 个 双 字 ， 不 带 数据 
0b010 TLP 大 小 为 3 个 双 字 ， 带 数据 
0b011 TLP 大 小 为 4 个 双 字 ， 带 数据 
0b100 TLP Prefix 
其 他 PCIe 总 线 保留 


其 中 所 有 读 请 求 TLP 都 不 带 数 据 ， 而 写 请 求 TLP 带 数 据 ， 而 其 他 TLP 可 能 带 数 据 也 可 
能 不 带 数 据 ， 如 完成 报 文 可 能 含有 数据 ， 也 可 能 仪 含有 完成 标志 而 并 不 携带 数据 。 在 TLP 
的 Type 字段 中 存放 TLP 的 类 型 ， 即 PCIe 总 线 支 持 的 总 线 事务 。 该 字段 共 由 5 位 组 成 ， 其 会 
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义 如 表 6-2 所 示 。 


表 6-2 Type [4:0] 字段 


TLP 类 型 Fmt [2:0] Type [4:0] 描 ” 述 
0b000 存储 器 读 请 求 ，TLP 引 为 3 个 或 者 4 个 双 字 
TI b Boe ， 存储 器 读 请 求 ， 头 大 小 为 3 个 或 者 4 个 双 字 ， 不 
0b001 带 数据 
0b000 带 锁 的 存储 器 读 请 求 ，TLP 头 大 小 为 3 个 或 者 4 个 
b00 Dj _ 带 镇 的 存储 器 读 请 求 ; 头 大 小 为 3 个 或 者 4 个 双 
0b001 字 ， 不 带 数 据 
0b010 存储 器 写 请 求 ， TLP 3 为 3 个 或 者 4 个 双 字 ， 带 
b0 OE0 O00 存储 器 写 请 求 ; 头 大 小 为 3 个 或 者 4 个 双 字 ， 带 
0b011 数据 
IORd 0b000 0b0 0010 I0 读 请 求 ; TLP 头 大 小 为 3 个 双 字 ， 不 带 数 据 
IOWr 0b010 0b0 0010 10 写 请 求 ，TLP 头 大 小 为 3 个 双 字 ， 带 数据 
CfgRd0 0b000 0b0 0100 配置 0 读 请 求 ，TLP 头 大 小 为 3 个 双 字 ， 不 带 数 据 
CfgWa0 0b010 0b0 0100 配置 0 写 请 求 ，TLP 头 大 小 为 3 个 双 字 ， 带 数据 
CfgRd1 0b000 0b0 0101 配置 1 读 请 求 ; 不 带 数据 
CfgWrl 0b010 0b0 0101 配置 1 写 请 求 ; 带 数 据 
TCfgRd 0b010 0bl 1011 本 
本 书 对 这 两 种 总 线 事务 不 做 介绍 
TCfgWr 0b001 0bl 1011 
消息 请 求 ; TLP 头 大 小 为 4 个 双 字 ， 不 带 数 据 。“mr” 
Msg 0b001 Obl 0mmrir 字段 是 消息 请 求 报 文 的 Route 字段 ， 下 文 将 详细 介绍 该 
字段 
MsgD 0b011 Obl Or,riro 消息 请 求 ;，TLP 头 大 小 为 4 个 双 字 ， 带 数据 
完成 报 文 ;，TLP 头 大 小 为 3 个 双 字 ， 不 带 数 据 。 包 括 
Cpl 0b000 0b0 1010 Sn 人 
， 存储 器 、 配 置 和 1/0 写 完成 
带 数 据 的 完成 报 文 ，TLP 头 大 小 为 3 个 双 字 ， 括 存 
CplD 0b001 0b0 1010 本 数据 的 完成 报 文 是 头 大 4 为 3 人 1 双 字 ， 包 括 存 
储 器 读 、LZO 读 、 配 置 读 和 原子 操作 读 完 成 
CplLk 0b000 0b0 1011 锁定 的 完成 报 文 ，TLP 头 大 小 为 3 个 双 字 ， 不 带 数 据 
带 数 据 的 锁定 完成 报 文 ，TLP 3 为 3 个 双 字 ， 带 
cplDrk 人 Rb 头 大 小 为 3 个 双 字 ， 带 
0b010 
FetchAdd 省 0b0 1100 Fetch and Add 原子 操作 
D 
Swap 05010 0b0 1101 Swap 原子 操作 
0b011 
0b010 人 
CAS 0b0 1110 CAS 原子 操作 
0b011 
LPrfx 0b100 0b0 L3L2 [Lo Local TLP Prefix 
EPrfx 0b100 Obl EsE,E, Eo End-End TLP Prefix 


存储 絮 读 和 写 请 求 ，IO 读 和 写 请 求 ， 及 配置 读 和 写 请 求 的 type 字段 相同 ， 如 存储 需 读 
和 写 请 求 的 Type 字段 都 为 0b0 0000。 此 时 PCIe 总 线 规范 使 用 Fmt 字段 区 分 读 写 请 求 ， 当 
Fmt 字段 是 “ 带 数据 ”的 报 文 ， 一 定 是 “ 写 报 文 ”"”， 当 Fmt 字段 是 “不 带 数 据 ” 的 报 文 ， 一 
定 是 “ 读 报 文 ”。 

PCIe 总 线 的 数据 报 文 传送 方式 与 PCI 总 线 数据 传送 有 类 似 之 处 。 其 中 存储 器 写 TLP 使 
用 Posted 方式 进行 传送 ， 而 其 他 总 线 事 务 使 用 Non-Posted 方式 。 
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PCIe 总 线 规定 所 有 Non-Posted 存储 器 请 求 使 用 Split 总 线 方式 进行 数据 传递 。 当 PCIe 设 
备 进行 存储 器 读 、1/O 读 写 或 者 配置 读 写 请 求 时 ， 首 先 向 目标 设备 发 送 数据 读 写 请 求 TLP， 
当 目 标 设备 收 到 这 些 读 写 请 求 TLP 后 ， 将 数据 和 完成 信息 通过 完成 报 文 (Cpl 或 者 CplD ) 
发 送 给 源 设备 。 

其 中 存储 器 读 、1/O 读 和 配置 读 需 要 使 用 CplD 报 文 ， 因 为 目标 设备 需要 将 数据 传递 给 
源 设备 ; 而 LO 写 和 配置 写 需 要 使 用 Cpl 报 文 ， 因 为 目标 设备 不 需要 将 任何 数据 传递 给 源 设 
备 ， 但 是 需要 通知 源 设备 ， 写 操作 已 经 完成 ， 数 据 已 经 成 功 地 传递 给 目标 设备 。 

在 PCIe 总 线 中 ， 进 行 存储 器 或 者 IO 写 操作 时 ， 数 据 与 数据 包头 一 起 传递 ;而 进行 存 
储 器 或 者 IO 读 操作 时 ， 源 设备 首先 向 目标 设备 发 送 读 请 求 TLP， 而 目标 设备 在 准备 好 数据 
后 ， 向 源 设备 发 出 完成 报 文 。 

PCIe 总 线 规范 还 定义 了 MRdLk 报 文 ， 该 报 文 的 主要 作用 是 与 PCI 总 线 的 锁 操作 相 兼 
容 ， 但 是 PCIe 总 线 规范 并 不 建议 用 户 使 用 这 种 功能 ， 因 为 使 用 这 种 功能 将 极 大 影响 PCIe 总 
线 的 数据 传送 效率 。 

与 PCI 总 线 不 同 ，PCle 总 线 规范 定义 了 Msg 报 文 ， 即 消息 报 文 ， 分 别 为 Msg 和 MsgD。 
这 两 种 报 文 的 区 别 在 于 一 个 报 文 可 以 传递 数据 , 一 个 不 能 传递 数据 。 

PCIe V2. 1 总 线 规范 还 补充 了 一 些 总 线 事务 ， 如 FetchAdd 、Swap 、CAS 、LPrfx 和 EPrfx。 
其 中 LPrfx 和 EPrfx 总 线 事务 分 别 与 Local TLP Prefix 和 EP-EP TLP Prefix 对 应 。 在 PCIe 总 线 
规范 V2.0 中 ，TLP 头 的 大 小 为 1D 双 ， 而 使 用 LPrfx 和 EPrfx 总 线 事务 可 以 对 TLP 头 进行 扩 
展 ， 本 节 不 对 这 些 TLP Prefix 做 进一步 介绍 。PCIe 设备 可 以 使 用 FetchAdd、Swap 和 CAS 总 
线 事务 进行 原子 操作 ， 第 6. 3. 5 节 将 详细 介绍 该 类 总 线 事务 。 


6.1.2 TC 字段 


TC 字段 表示 当前 TLP 的 传送 类 型 ，PCIe 总 线 规定 了 8 种 传输 类 型 ， 分 别 为 TC0 ~ TC7， 
缺 省 值 为 TCO0 ， 该 字段 与 PCIe 的 QoS 相关 。PCIe 设备 使 用 TC 区 分 不 同类 型 的 数据 传递 ， 
而 多 数 EP 中 只 含有 一 个 VC， 因此 这 些 EP 在 发 送 TLP 时 ， 也 仅仅 使 用 TC0, 但 是 有 些 对 实 
时 性 要 求 较 高 的 EP 中 ， 含 有 可 以 设置 TC 字段 的 寄存 器 。 

在 Intel 的 高 精度 声卡 控制 器 (High Definition Audio Controller) 的 扩展 配置 空间 中 含有 
一 个 TCSEL 寄存 器 。 系 统 软件 可 以 设置 该 寄存 器 ， 使 声卡 控制 器 发 出 的 TLP 使 用 合适 的 
TC。 声 卡 控制 器 可 以 使 用 TC7 传送 一 些 对 实时 性 要 求 较 强 的 控制 信息 ， 而 使 用 TC0 传送 一 
般 的 数据 信息 。 在 具体 实现 中 ， 一 个 EP 也 可 以 将 控制 TC 字段 的 寄存 器 放 入 到 设备 的 BAR 
空间 中 ， 而 不 必 和 Intel 的 高 精度 声卡 控制 带 相 同 ， 存 放 在 PCI 配置 空间 中 。 

目前 许多 处 理 器 系统 的 RC 仅 支 持 一 个 VC 通路 ， 此 时 EP 使 用 不 同 的 TC 进行 传递 数据 
的 意义 不 大 。x86 处 理 器 的 MCH 中 一 般 支 持 两 个 VC 通路 ， 而 多 数 PowerPC 处 理 右 仅 支 持 一 
个 VC 通路 。PLX 公司 的 多 数 Switch 也 仅 支 持 两 个 VC 通路 。 

有 些 RC， 如 MPC8572 处 理 器 ， 也 能 决定 其 发 出 TLP 使 用 的 TC。 在 该 处 理 器 的 PCIe 
Outbound 窗口 寄存 器 (PEXOWARn) 中 ,含有 一 个 TC 字段 ， 通 过 设置 该 字段 可 以 确定 RC 
发 出 的 TLP 使 用 的 TC 字段 。 不 同 的 TC 可 以 使 用 PCIe 链 路 中 的 不 同 VC， 而 不 同 的 VC 的 仲 
裁 级 别 并 不 相同 。EP 或 者 RC 通过 调整 其 发 出 TLP 的 TC 字段 ， 可 以 调整 TLP 使 用 的 VC， 
从 而 调整 TLP 的 优先 级 。 
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6.1.3 Attr 字段 


Attr 字段 由 3 位 组 成 ， 其 中 第 2 位 表示 该 TLP 是 否 支持 PCle 总 线 的 ID-based Ordering; 
冬 龙 元 县 不 十 桂 ， 0 Ar 
经 过 达 存 储 侨 时 ， 是 否 需 要 进行 Cache 共享 一 致 性 处 
理 9 Attr 字段 如 图 0-3 所 不 9 ID-Based Relaxed No 
一 个 TLP 可 以 同时 支持 ID-based Ordering 和 Relaxed Orde- Ordering Ordering 。 Snoop 
ring 两 种 位 序 。Relaxed Ordering 最 早 在 PCI-X 总 线 规范 中 提 图 6-3 ”Attr 字段 格式 
出 ， 用 来 提高 PCI-X 总 线 的 数据 传送 效率 ; 而 ID-based Orde- 
ring 由 PCIe V2. 1 总 线 规范 提出 。TLP 支持 的 序 如 表 6-3 所 示 。 


表 6-3 TLP 支持 的 序 


Attr [2] Attr [1] 类 


型 
0 0 缺 省 序 ， 即 强 序 模型 
0 1 PCI-X Relaxed Ordering 模型 
1 0 ID-Based Ordering (IDO) 模型 
1 1 同时 支持 Relaxed Ordering 和 IDO 模型 


当 使 用 标准 的 强 序 模型 时 ， 在 数据 的 整个 传送 路 径 中 ，PCIe 设备 在 处 理 相同 类 型 的 
TLP 时， 如 PCIe 设备 发 送 两 个 存储 器 写 TLP 时 ， 后 面 的 存储 器 写 TLP 必须 等 待 前 一 个 存 
储 器 写 TLP 完成 后 才能 被 处 理 ， 即 便当 前 报 文 在 传送 过 程 中 被 阻塞 ， 后 一 个 报 文 也 必须 
等 待 。 

如 果 使 用 Relaxed Ordering 模型 ， 后 一 个 存储 右 写 TLP 可 以 穿越 前 一 个 存储 器 写 TLP， 
提前 执行 ， 从 而 提高 了 PCle 总 线 的 利用 率 。 有 时 一 个 PCIe 设备 发 出 的 TLP， 其 目的 地 址 并 
不 相同 ， 可 能 先进 入 发 送 队 列 的 TLP， 在 某 种 情况 下 无 法 发 送 ， 但 这 并 不 影响 后 续 TLP 的 发 
送 ， 因 为 这 两 个 TLP 的 目的 地 址 并 不 相同 ， 发 送 条 件 也 并 不 相同 。 

值得 注意 的 是 ， 在 使 用 PCI 总 线 强 序 模型 时 ， 不同 种 类 的 TLP 间 也 可 以 乱 序 通过 同一 
条 PCIe 链 路 ， 比 如 存储 絮 写 TLP 可 以 超越 存储 器 读 请 求 TLP 提前 进行 。 而 PCIe 总 线 支 持 
Relaxed Ordering 模型 之 后 ， 在 TLP 的 传递 过 程 中 出 现 乱 序 种 类 更 多 ,但 是 这 些 乱 序 仍然 是 
有 条 件 限制 的 。 在 PCIe 总 线 规范 中 为 了 避免 死 锁 ， 还 规定 了 不 同 报 文 的 传送 数据 规则 ， 即 
Ordering Rules。 有 关 PCTe 总 线 序 的 详细 说 明 见 第 11 章 。 

PCIe V2. 1 总 线 规范 引入 了 一 种 新 的 “ 序 ” 模 型 ， 即 IDO (ID-Based Ordering) 模型 ， 
IDO 模型 与 数据 传送 的 数据 流 相关 ， 是 PCIe V2. 1 规范 引入 的 序 模 型 。 有 关 PCIe 总 线 的 Re- 
laxed Ordering 和 IDO 模型 的 详细 说 明 见 第 11. 4.2 市 。 

Attr 字段 的 第 0 位 是 “No Snoop Attribute” 位 。 当 该 位 为 0 时 表示 当前 TLP 所 传送 的 数 
据 在 通过 FSB 时 ， 需 要 与 Cache 保持 一 致 ， 这 种 一 致 性 由 FSB 通过 总 线 监 听 自 动 完 成 而 不 
需要 软件 干预 ;如果 为 1， 表 示 FSB 并 不 会 将 TLP 中 的 数据 与 Cache 进行 一 致 ， 在 这 种 情况 
下 ， 进 行 数据 传送 时 ， 必 须 使 用 软件 保证 Cache 的 一 致 性 。 

在 PCI 总 线 中 没有 与 这 个 “No Snoop Attribute” 位 对 应 的 概念 ， 因 此 一 个 PCI 设备 对 存 
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储 器 进行 DMA 操作 时 会 进行 Cache 一 致 性 操作 >。 这 种 “自动 的 ” Cache 一 致 性 行为 在 某 些 
特殊 情况 下 并 不 能 带 来 更 高 的 效率 。 

当 一 个 PCle 设备 对 存储 器 进行 DMA 读 操 作 时 ， 如 果 传 送 的 数据 非常 大 ， 比 如 512MB， 
Cache 的 一 致 性 操作 不 但 不 会 提高 DMA 写 的 效率 ， 反 而 会 降低 。 因 为 这 个 DMA 读 访 问 的 数 
据 在 绝 大 多 数 情况 下 ， 并 不 会 在 Cache 中 命中 ,但 是 FSB 依然 需要 使 用 Snoop Phase 进行 总 
线 监 听 。 而 处 理 器 在 进行 Cache 一 致 性 操作 时 仍然 需要 占用 一 定 的 时 钟 周期 ， 即 在 Snoop 
Phase 中 占用 的 时 钟 周 期 ，Snoop Phase 是 FSB 总 线 事 务 的 一 个 阶段 ， 如 图 3-6 所 示 。 

对 于 这 类 情况 ， 一 个 较 好 的 做 法 是 ， 首 先 使 用 软件 指令 保证 Cache 与 主 存储 器 的 一 臻 
性 ， 并 置 “No Snoop Attribute” 位 为 1S ， 然 后 再 进行 DMA 读 操作 。 同 理 使 用 这 种 方法 对 一 
段 较 大 的 数据 区 域 进行 DMA 写 时 ， 也 可 以 提高 效率 。 

除 此 之 外 ， 当 PCIe 设备 访问 的 存储 器 ， 不 是 “可 Cache 空间 ”时 ,也 可 以 通过 设置 
“No Snoop Attribute” 位， 避免 FSB 的 Cache 共享 一 致 性 操作 ， 从 而 提高 FSB 的 效率 。“No 
Snoop Attribute” 位 是 PCIe 总 线 针 对 PCI 总 线 的 不 足 作 出 的 重要 改动 。 


6.1.4 通用 TLP 头 中 的 其 他 字段 


除了 Fmt 和 Type 字段 外 ， 通 用 TLP 头 还 含有 以 下 字段 。 

1. TH 位 、TD 位 和 EP 位 

TH 位 为 1 表示 当前 TLP 中 含有 TPH (TLP Processing Hint) 信息 ，TPH 是 PCIe V2.1 总 
线 规范 引入 的 一 个 重要 功能 。TLP 的 发 送 端 可 以 使 用 TPH 信息 ， 通 知 接收 端 即将 访问 数据 
的 特性 ， 以 便 接 收 端 合 理 地 预 读 和 管理 数据 ，TPH 的 详细 介绍 见 第 6.3.6 节 。 

TD 位 表示 TLP 中 的 TLP Digest 是 否 有 效 ， 为 1 表示 有 效 ， 为 0 表示 无 效 。 而 EP 位 表示 
当前 TLP 中 的 数据 是 否 有 效 ， 为 1 表示 无 效 ， 为 0 表示 有 效 。 

2. AT 字段 

AT 字段 与 PCle 总 线 的 地 址 转换 相关 。 在 一 些 PCIe 设备 中 设置 了 ATC (Address Transla- 
tion Cache) 部 件 ， 这 个 部 件 的 主要 功能 是 进行 地 址 转换 。 只 有 在 支持 IOMMU 技术 的 处 理 器 
系统 中 ，PCle 设备 才能 使 用 该 字段 。 

AT 字段 可 以 用 作 存 储 顺 域 与 PCI 总 线 域 之 间 的 地 址 转换 ， 但 是 设置 这 个 字段 的 主要 目 
的 是 为 了 方便 多 个 虚拟 主机 共享 同一 个 PCIe 设备 。 对 这 个 字段 有 兴趣 的 读者 可 以 参考 Ad- 
dress Translation Sevices 规范 ， 这 个 规范 是 PCI 的 IO Virtualization 规范 的 重要 组 成 部 分 。 对 虚 
拟 化 技术 有 兴趣 的 读者 可 以 参考 清华 大 学 出 版 社 的 《系统 虚拟 化 一 -原理 与 实现 》， 以 获得 
基本 的 关于 虚拟 化 的 入 门 知识 。 该 书 主要 针对 处 理 器 系统 的 虚拟 化 技术 。 而 本 书 将 在 第 
13.2. 1 节 详 细 介 绍 AT 字段 和 PCI 总 线 相关 的 虚拟 化 技术 。 

3.， Length 字段 

Length 字段 用 来 描述 TLP 的 有 效 负载 (Data Payload ) 大 小 3。PCIe 总 线 规范 规定 一 个 
TLP 的 Data Payload 的 大 小 在 0 ~4096 B 之 间 。PCIe 总 线 设置 Length 字段 的 目的 是 提高 总 


”PowerPC 处 理 器 通过 设置 mbound 寄存 器 ， 也 可 以 避免 这 个 Cache 一 致 性 操作 。 
四 FSB 收 到 这 类 TLP 后 ， 不 进行 Cache 一 致 性 操作 。 
提存 储 器 读 请 求 TLP 没有 DataPayload 字段 ， 此 时 该 TLP 使 用 Length 字段 表示 需要 读 取 多 少数 据 。 
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线 的 传送 效率 。 

当 PCI 设备 在 进行 数据 传送 时 ， 其 目标 设备 并 不 知道 实际 的 数据 传送 大 小 ， 这 在 一 定 程 
度 上 影响 了 PCI 总 线 的 数据 传送 效率 。 而 在 PCIe 总 线 中 ， 目 标 设备 可 以 通过 Length 字段 提 
前 获知 源 设备 需要 发 送 或 者 请 求 的 数据 长 度 ， 从 而 合理 地 管理 接收 缓冲 ， 并 根据 实际 情况 进 
行 Cache 一 致 性 操作 。 

当 PCI 设备 进行 DMA 写 操 作 ， 将 PCI 设备 中 4KB 大 小 的 数据 传送 到 主 存储 器 时 ， 这 个 
PCI 设备 的 DMA 控制 器 将 存放 传送 的 目的 地 址 和 传送 大 小 ， 然 后 启动 DMA 写 操 作 ， 将 数据 
写 人 到 主 存储 器 。 由 于 PCI 总 线 是 一 条 共享 总 线 ， 因 此 传送 4 KB 大 小 的 数据 ， 可 能 会 使 用 
若干 个 PCI 总 线 写 事 务 才能 完成 2 ， 而 每 一 个 PCI 总 线 写 事务 都 不 知道 DMA 控制 器 何 时 才 
能 将 数据 传送 完毕 。 

如 果 这 些 总 线 写 事务 还 通过 一 系列 PCI 桥 才 能 到 达 存 储 器 ， 在 这 个 路 径 上 的 每 一 个 PCI 
桥 也 无 法 预知 这 个 DMA 操作 何 时 才能 结束 ， 那 么 这 种 “不 可 预知 ”将 导致 PCI 总 线 的 带宽 
不 能 被 充分 利用 ， 而 且 极 易 造 成 PCI 桥 数据 缓冲 的 浪费 。 

而 PCIe 总 线 通过 TLP 的 Length 字段 ， 可 以 有 效 避 免 PCIe 链 路 带宽 的 浪费 。 值 得 注意 的 
是 ，Length 字段 以 DW 为 单位 ， 其 最 小 单位 为 1 个 DW。 如 果 PCIe 主 设备 传送 的 单位 小 于 1 
个 DW 或 者 传送 的 数据 并 不 以 DW 对 界 时 ， 需 要 使 用 字 节 使 能 字段 ， 即 “DW BE” 字段。 
有 关 “DW BE” 字 上 段 的 详细 说 明 见 第 6. 3.1 节 。 


6.2 TLP 的 路 由 


TLP 的 路 由 是 指 TLP 通过 Switch 或 者 PCIe 桥 片 时 采用 哪 条 路 径 ， 最 终 到 达 EP 或 者 RC 
的 方法 。PCIle 总 线 一 共 定 义 了 三 种 路 由 方法 ， 分 别 是 基于 地 址 (Address) 的 路 由 ， 基 于 ID 
的 路 由 和 隐 式 路 由 ( Implicit) 方式 。 

存储 器 和 1/0 读 写 请 求 TLP 使 用 基于 地 址 的 路 由 方式 ， 这 种 方式 使 用 TLP 中 的 Address 
字段 进行 路 由 选 径 ， 最 终 到 达 目 的 地 。 

而 配置 读 写 报 文 、“Vendor_Defined Messages” 报 文 、Cpl 和 CplD 报 文 使 用 基于 ID 的 路 
由 方式 ， 这 种 方式 使 用 PCI 总 线 号 9 (Bus Number) 进行 路 由 选 径 。 在 Switch 或 者 多 端口 
RC 的 虚拟 PCI-to-PCI 桥 配 置 空间 中 ， 包含 如 何 使 用 PCI 总 线 号 进行 路 由 选 径 的 信息 。 

而 隐 式 路 由 方式 主要 用 于 Message 报 文 的 传递 。 在 PCle 总 线 中 定义 了 一 系列 消息 报 文 ， 
包括 “INTx Interrupt Signaling”，“ 了 Power Management Messages” 和 “Error Signal Messages” 
等 报 文 。 在 这 些 报 文中 ， 除 了 “Vendor_Defined Messages” 报 文 ， 其 他 所 有 消息 报 文 都 使 用 
隐 式 路 由 方式 ， 隐 式 路 由 方式 是 指 从 下 游 端 口 到 上 游 端 口 进 行 数据 传 递 的 使 用 路 由 方式 ， 或 
者 用 于 RC 向 EP 发 出 广播 报 文 。 


6. 2.1 基于 地 址 的 路 由 
在 PCle 总 线 中 ， 存 储 器 读 写 和 1O 读 写 TLP 使 用 基于 地 址 的 路 由 方式 。PCIe 设备 使 用 


 ” 当 多 个 PCI 设备 共享 一 条 PCI 总 线 时 ， 一 个 设备 不 会 长 时 间 占 用 PCI 总 线 ， 这 个 设备 在 使 用 这 条 PCI 总 线 一 定 的 
时 间 后 ， 将 让 出 PCI 总 线 的 使 用 权 。 
蝗 ”PCIe 总 线 实际 上 使 用 Transaction ID 进行 ID 路 由 ， 有 关 Transaction ID 的 详细 说 明 见 第 6.3.1 节 。 
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的 地 址 路 由 方式 与 PCI 设备 使 用 的 地 址 路 由 方式 类 似 。 只 是 PCIe 设备 使 用 TLP 进行 数据 传 
送 ， 而 PCI 设备 使 用 总 线 周 期 进行 数据 传送 。 使 用 地 址 路 由 方式 进行 数据 传递 的 TLP 格式 
如 第 6. 3. 1 节 的 图 6-8 所 示 ， 在 这 类 TLP 中 包含 目的 设备 的 地 址 。 

当 一 个 TLP 进行 数据 传递 时 ， 可 能 会 经 过 多 级 Switch ， 最 终 到 达 目 的 地 。Switch 将 根据 
存储 器 读 写 和 IO 读 写 请 求 TLP 的 目的 地 址 将 报 文 传递 到 合适 的 Egress 端口 上 。 如 图 4-10 
所 示 ， 在 一 个 Switch 中 包含 了 多 个 虚拟 PCI-to-PCI 桥 。 在 Switch 中 有 几 个 端口 ， 就 包含 几 个 
虚拟 PCI-to-PCI 桥 。 

在 虚拟 PCI-to-PCI 桥 的 配置 寄存 器 空间 中 ,包含 一 个 桥 片 能 够 接收 的 物理 地 址 范围 。 
PCIe 总 线 通 过 这 个 物理 地 址 范围 实现 基于 地 址 的 路 由 。 这 段 配置 寄存 器 如 图 6-4 所 示 。 当 
系统 软件 初始 化 PCI 总 线 时 ， 将 合理 地 设置 这 些 寄 存 器 ， 之 后 当 TLP 通过 这 些 Switch 时 将 
根据 这 些 寄存 器 选择 合适 的 路 径 。 


图 6-4 与 地 址 路 由 相关 的 PCI 桥 片 配置 寄存 天 


图 6-4 中 的 配置 寄存 器 描述 了 该 虚拟 PCI-to-PCI 桥 下 游 PCI 子 树 使 用 的 三 组 空间 范围 
分 别 为 IO 、 存 储 器 和 可 预 取 的 存储 需 空 间 ， 分 别 用 Base 和 Limit 两 类 寄存 器 描述 ， 其 中 
Base 寄存 器 表示 可 访问 空间 的 基地 址 ，Limit 寄存 器 表示 可 访问 空间 的 大 小 。TLP 使 用 基于 
地 址 的 路 由 时 ， 一定 要 通过 查询 这 组 寄存 器 之 后 ， 再 决定 传送 路 径 。 这 组 寄存 器 的 使 用 方法 
与 PCI 总 线 中 的 PCI 桥 兼容 。 

其 中 TLP“ 从 上 游 端 口 发 送 到 下 游 端 口 ” 与 “从 下 游 端 口 发 送 到 上 游 端 口 ”的 路 由 过 
程 略 有 不 同 ， 如 图 6-5 所 示 。 下 文 以 TLP1 ~ TLP3 的 发 送 过 程 对 地 址 路 由 过 程 进行 说 明 。 
TLP1 ~ TLP3 的 描述 如 下 。 

。TLP1 是 一 个 存储 右 或 者 YO 请 求 TLP， 由 RC 发 出 ， 并 通过 一 个 Switch 发 向 EP1。 存 

储 器 和 IO 读 写 请 求 TLP 使 用 这 种 地 址 路 由 方式 。TLP1 将 从 Switch 的 上 游 端口 传送 
到 下 游 端 口 。 

e TLP2 是 一 个 存储 器 或 者 /0 请 求 TLP， 由 EP2 发 出 ， 并 通过 一 个 Switch 发 向 RC。 当 
PCIe 设备 进行 DMA 读 写 操作 时 ， 将 使 用 这 种 地 址 路 由 方式 。TLP2 将 从 Switeh 的 下 
游 端 口传 送 到 上 游 端 口 。 

e TLP3 是 一 个 存储 器 或 者 I/O 请 求 TLP， 由 一 个 EP2 发 出 ， 并 通过 一 个 Switch 后 发 送 
到 另外 一 个 EP。 在 x86 处 理 器 系统 中 ， 这 种 用 法 并 不 常见 。 但 是 在 某 些 大 规模 处 理 
器 系统 中 ， 具 有 这 种 应 用 方式 。 此 时 TLP3 将 从 Switch 的 下 游 端口 传送 到 另外 一 个 下 
游 端 口 。 

1. TLP1 的 传送 过 程 

当 TLP1 从 RC 发 向 EPl 时 ， 这 个 TLP1 为 IO 或 者 存储 器 报 文 ， 其 中 TLP1 目的 地 址 在 
EP1 的 BAR 空间 中 。 当 处 理 器 访问 EP 的 BAR 空间 时 ， 需 要 使 用 该 类 TLP。 值 得 注意 的 是 
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图 6-5 基于 地 址 的 路 由 寻 径 方式 


这 个 数据 报 文 在 通过 RC 时 需要 进行 地 址 转换 。 

TLP1 首先 通过 PCI Bus0 发 向 Switch ， 并 通过 Switch 的 Upstream 端口 到 达 P-P1 桥 片 ，P- 
P1 桥 片 首先 根据 配置 寄存 器 中 的 Limit 和 Base 寄存 器 决定 是 否 接收 TLP1。 如 果 Switch 不 接 
收 TLP1， 则 将 该 TLP 作为 不 支持 的 请 求 (Unsupported Request) 处 理 ， 此 时 如 果 TLP1 需要 
回应 报 文 ，Switch 将 发 出 完成 报 文 ， 该 报 文 的 状态 为 UR (Unsupported Request ) 。 

如 果 Switch 接收 TLP1， 则 表示 TLP1 所 访问 的 地 址 在 该 Switch 下 游 端口 所 连接 的 EP 或 
者 Switch 中 ， 此 时 Switch 将 TLP1 从 PCI Bus0 推 至 PCI Busl 中 ， 即 穿越 P-P1 桥 片 。TLP1 到 
达 PCI Busl 后 将 同时 查找 P-P2 和 P-P3 桥 片 配置 寄存 器 中 的 Limit 和 Base 寄存 器 ， 决 定 是 P- 
P2 还 是 P-P3 桥 片 接收 TLP1。 本 小 节 中 的 例子 将 使 用 P-P2 桥 片 接收 TLP1， 并 将 TLP1 推 至 
PCI Bus2， 而 PCI Bus2 上 的 EP1 将 接收 TLP1 ， 完 成 整个 地 址 路 由 。 

2，TLP2 的 传送 过 程 

当 TLP2 从 EP2 发 向 RC 时 ， 一 般 来 说 该 TLP 将 访问 处 理 器 系统 的 主 存储 器 。 此 时 TLP2 
首先 将 请 求 发 至 P-P3 桥 片 ， 在 P-P3 桥 片 配置 寄存 器 的 Limit 和 Base 寄存 器 中 当然 不 会 包含 
TLP2 所 访问 的 地 址 ， 此 时 P-P3 桥 片 将 TLP2 推 至 PCI Busl 。 

TLP“ 从 下 游 端 口 向 上 游 端 口 ” 与 “从 TLP 从 上 游 端 口 向 下 游 端 口 ”进行 传递 时 ， 桥 
片 的 处 理 机 制 有 所 不 同 ， 从 上 游 端 口 向 下 游 端 口传 递 时 ， 如 果 桥 片 配置 寄存 器 的 Limit 和 
Base 寄存 右 包 含 该 TLP 的 访问 地 址 时 ， 桥 片 将 接收 此 TLP， 否 则 不 接收 该 TLP。 而 从 下 游 端 
口 向 上 游 端 口传 递 时 ， 如 果 桥 片 配置 寄存 器 的 Limit 和 Base 寄存 器 不 包含 该 TLP 的 访问 地 址 
时 ， 桥 片 将 接收 该 TLP， 并 将 其 推 至 桥 片 的 上 游 PCI 总 线 。 值 得 注意 的 是 ， 这 两 种 地 址 译 码 
方式 都 属于 PCI 总 线 的 正 向 译 码 。 

当 TLP2 到 达 PCI Busl 时 ， 首 先 检查 在 PCI Busl 总 线 上 的 P-P2 桥 片 是 否 可 以 接收 此 
TLP， 如 果 不 能 接收 则 TLP2 通过 P-P1 桥 片 传递 到 PCI Bus0 ， 即 到 达 RC。 

在 MPC8548 处 理 器 中 ， 到 达 RC 的 TLP 首先 通过 Inbound 寄存 器 进行 地 址 转换 ， 将 TLP 
的 PCI 总 线 地 址 转换 为 处 理 器 的 地 址 ， 然 后 访问 处 理 器 中 相应 的 存储 器 空间 ; 对 于 x86 处 理 
器 而 言 ，MCH 也 会 完成 PCI 域 地 址 空间 到 存储 需 域 地 址 空间 的 转换 ， 然 后 访问 处 理 器 中 相 
应 的 存储 器 空间 。 
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3. TLP3 的 传送 过 程 

TLP3 的 传递 方式 与 TLP2 的 传递 方式 有 些 类 似 ， 当 TLP3 传递 到 PCI Busl 时 ，P-P2 桥 片 
将 接收 TLP3 ， 并 将 TLP3 传递 到 PCI Bus2 上 的 EP1 中 。 由 以 上 氢 述 可 以 发 现 ，PCIe 总 线 中 
基于 地 址 的 路 由 方式 与 PCI 总 线 上 的 基于 地 址 的 数据 传递 流程 十 分 相近 。TLP3 在 PCI 总 线 
域 上 进行 数据 传递 ， 因 此 不 需要 进行 PCI 总 线 域 到 存储 器 域 的 地 址 转换 。 


6.2.2 基于 了 ID 的 路 由 


在 PCIe 总 线 中 ， 基 于 ID 的 路 由 方式 主要 用 于 配置 读 写 请 求 TLP、Cpl 和 CplD 报 文 ， 此 
外 Vendor_Defined 消息 报 文 也 可 以 使 用 这 种 基于 ID 的 路 由 方式 。 而 在 PCI 总 线 中 ， 只 有 配 
置 读 写 周期 才 使 用 ID 进行 数据 传递 。 

基于 ID 的 路 由 方式 与 基于 地 址 的 路 由 方式 有 较 大 的 不 同 ， 基 于 ID 路 由 方式 的 TLP 头 格 
式 也 与 基于 地 址 路 由 方式 的 头 格式 不 同 ， 其 报 文 格式 如 图 6-6 所 示 。 


+0 +1 +2 +3 

7|6|5 4~0 7 4 一 0 
Eq 品 | 口 | 吓 

we 

Byte 4 与 Type 字段 相关 


。 Function 


Byte 12 Depend on TLP types 


6 一 3 2 1 0|17|16|5~4|l3~2|1~0 7 


Byte 0 


图 6-6 使 用 ID 路 由 的 TLP 头 格式 


使 用 ID 路 由 方式 的 TLP 头 ， 其 Byte8 ~ Bytell 字段 与 基于 地 址 路 由 的 TLP 不 同 。 基 于 
ID 路 由 的 TLP， 使 用 Bus Number、Device Number 和 Function Number 进行 路 由 寻 址 。 从 软件 
的 角度 来 看 ，PCIe 总 线 与 PCI 总 线 兼 容 ， 只 是 在 PCle 总 线 中 ， 每 一 个 PCIe 设备 使 用 唯一 的 
PCI 设备 导 ， 但 是 每 一 个 设备 仍然 可 以 有 多 个 子 设备 (Function) 。 

PCIe 总 线 规定 ， 在 一 个 PCI 总 线 域 空 间 中 ， 最 多 只 能 有 256 条 PCI 总 线 ， 因 此 在 一 个 
TLP 中 ，Bus Number 由 五 位 组 成 ; 而 在 每 一 条 总 线 中 最 多 包含 32 个 设备 ， 因 此 TLP 中 的 
Device Number 由 5 位 ?组 成 ; 而 每 一 个 设备 中 最 多 包含 8 个 功能 ， 因 此 一 个 TLP 的 Function 
Number 由 3 位 组 成 。 

配置 读 写 请 求 TLP 是 使 用 “基于 ID 路 由 ”的 一 组 重要 报 文 ， 其 主要 作用 是 读 写 PCIe 
总 线 的 EP、Switch 及 PCIe 桥 片 的 配置 寄存 器 ， 以 完成 PCIe 总 线 的 配置 。 在 处 理 器 系统 上 电 
之 后 需要 进行 PCI 总 线 系统 的 枚 举 ， 为 PCI 总 线 分 配 总 线 号 ， 并 设置 Switch 、PCle 桥 片 或 者 
EP 的 配置 寄存 器 ， 如 Limit 寄存 器 组 、Base 寄存 器 组 、BAR 寄存 器 、Subordinate Bus Num- 
ber、Secondary Bus Number 和 Primary Bus Number 等 一 系列 配置 寄存 髓 。 

在 上 文中 我 们 简单 介绍 了 Limit 寄存 器 组 和 Base 寄存 器 组 的 用 法 ， 下 文 将 重点 描述 Sub- 


G PCIe 链 路 采用 端 到 端的 通信 方式 ， 每 一 个 链 路 只 能 挂 接 一 个 设备 ， 因 此 在 多 数 情况 下 ， 使 用 3 位 描述 Device 
Number 是 多 余 的 ， 因 此 PCIe 总 线 提出 了 ARI 格式 ， 该 格式 的 详细 描述 见 第 6. 3. 1 节 。 
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ordinate Bus Number 、Secondary Bus Number 和 Primary Bus Number 寄存 器 。Subordinate Bus 
Number 、Secondary Bus Number 和 Primary Bus Number 寄存 器 在 Type 01h 配置 寄存 器 中 ， 用 
来 描述 PCI-to-PCI 桥 片 的 上 游 及 下 游 总 线 号 。 这 段 寄 存 器 在 PCI 配置 寄存 器 中 的 位 置 如 所 图 


6-7 示 。 
Secondary Subordinate Bus Secondary Bus ; 
图 6-7 与 ID 路 由 相关 的 PCI 桥 片 配置 寄存 器 


与 PCI 总 线 中 的 桥 片 类 似 ，Primary Bus Number 记录 PCI-to-PCI 桥 上 游 的 PCI 总 线 号 ， 
Secondary Bus Number 记录 PCI-to-PCI 桥 下 游 的 第 一 个 PCI 总 线 号 ， 而 Subordinate Bus Num- 
ber 记录 PCI-to-PCI 桥 下 游 的 最 后 一 个 PCI 总 线 号 。 

如 图 6-5 所 示 ，P-P1 桥 片 的 Primary Bus Number 为 0，Secondary Bus Number 为 1， 而 
Subordinate Bus Number 为 3。 这 些 总 线 号 ， 在 处 理 器 系统 对 PCI 总 线 进 行 枚 举 时 由 系统 初始 
化 程序 设置 ， 从 系统 初始 化 程序 的 角度 来 看 ，PCIe 总 线 与 PCI 总 线 基 本 兼容 ， 只 是 PCIe 总 
线 对 配置 空间 进行 了 一 些 扩展 。 

在 如 表 6-2 所 示 中 ，RC 可 以 使 用 Type 00h 和 Type 01h 读 写 请 求 TLP， 对 PCIe 设备 的 
配置 寄存 器 进行 读 写 访 问 ， 配 置 读 写 请 求 TLP 只 能 由 RC 发 出 ， 配 置 读 写 请 求 TLP 使 用 基于 
ID 的 路 由 方式 。 

在 如 图 6-5 所 示 的 例子 中 ，RC 首先 使 用 Type 00h 配置 请 求 TLP 访问 在 PCI Bus0 总 线 
上 的 设备 ，PCI Bus0 上 的 所 有 设备 ， 包 括 桥 片 都 要 监听 PCI Bus 0 上 的 配置 请 求 ， 在 本 例 中 
只 有 Switch 挂 接 在 PCI Bus0 上 ， 实 际 上 是 Switch 的 上 游 端 口 与 PCI Bus0 直接 相连 。 因 此 
Switch 的 上 游 端 口 将 接收 RC 发 出 的 Type 00h 配置 请 求 TLP， 之 后 Switch 将 向 RC 发 出 完成 
报 文 ， 结 束 配置 请 求 。 与 PCI 总 线 相 同 ，PCIe 总 线 的 Type 00h 类 型 配置 请 求 TLP 不 能 够 穿 
越 桥 片 ， 在 图 6-5 中 这 类 请 求 只 能 访问 Switch 上 游 端口 的 配置 空间 。 

PCI 总 线 是 基于 共享 总 线 的 数据 传送 方式 ， 在 一 条 PCI 总 线 上 可 以 连接 多 个 PCI Agent 
设备 ， 其 中 每 一 个 PCI Agent 都 提供 了 一 个 IDSEL# 信 和 号， 这 个 信号 与 PCI-to-PCI 桥 片 或 者 
HOST 主 桥 的 地 址 线 直 接 相 连 ，PCI 总 线 根据 与 IDSEL# 信 号 与 地 址 线 的 连接 关系 决定 相应 设 
备 的 Device Number。 

这 与 PCIe 总 线 的 使 用 方法 不 同 ，PCIe 总 线 使 用 “ 端 对 端 ” 的 连接 方式 ，PCIe 链 路 只 能 
连接 一 个 下 游 设备 ， 而 这 个 下 游 设 备 的 Device Number 只 能 为 0。 而 只 有 在 Switch 的 虚拟 PCI 
总 线 上 可 以 连接 多 个 Device Number 不 同 的 端口 。 

当 一 个 虚拟 PCI 总 线 上 挂 接 PCI-to-PCI 桥 时 ， 系 统 配置 软件 将 使 用 Type 01h 配置 请 求 
TLP 访问 PCI-PCI 桥 下 游 的 PCI 设备 。 如 图 6-5 所 示 ，RC 可 以 通过 Type 01h 配置 请 求 TLP 
访问 P-P2 桥 片 、P-P3 桥 片 ，EP1 和 EP2。 

当 RC 使 用 Type 01h 配置 请 求 TLP， 直 接 访 问 P-P1 桥 的 下 游 设备 时 ， 首 先 需 要 检查 该 
TLP 的 Bus Number 是 否 为 1， 如 果 为 1 表示 该 TLP 的 访问 目标 在 PCI Bus 1 总 线 上 ， 此 时 
PCI-to-PCI 桥 将 这 个 Type 01h 类 型 的 TLP 转换 为 Type 00h 类 型 的 TLP， 然 后 推 至 PCI Bus 1 
总 线 ， 并 访问 其 下 的 设备 。 

如 果 该 TLP 的 Bus Number 在 P-P1 桥 片 的 Secondary Bus Number 和 Subordinate Bus Num- 
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ber 寄存 器 之 间 ， 则 P-P1 桥 片 将 该 Type 01h 类 型 的 TLP 直接 透 传 到 PCI Bus 1 上 ， 并 不 改变 
该 TLP 的 类 型 ， 之 后 Type 01h 类 型 的 TLP 将 继续 检查 P-P2 和 P-P3 桥 片 的 配置 空间 ， 决 定 
由 P-P2 还 是 P-P3 接收 该 TLP。 如 果 TLP 的 PCI Bus Number 为 2 时 ，P-P2 桥 片 将 接收 该 
TLP， 并 将 该 Type 01h 类 型 TLP 转换 为 Type 00h 类 型 的 TLP， 然 后 发 送 给 EP1， 并 由 EP1 处 
理 该 TLP。 

上 文 简要 讲述 了 配置 请 求 TLP 使 用 ID 路 由 方式 从 上 游 端 口 向 下 游 端 口 的 传递 规则 ， 但 
是 Vendor_Defined 消息 报 文 和 Cpl 和 CplD 报 文 还 可 能 从 下 游 端 口 向 上 游 端 口 进行 传递 。 此 
时 PCIe 总 线 处 理 方法 略 有 不 同 。 下 文 仍 以 图 6-5 为 例 说 明 这 种 情况 。 

当 一 个 TLP 从 EP2 传送 到 EP1 或 者 RC 时 ， 首 先 检查 P-P3 桥 片 的 配置 空间 ，P-P3 桥 片 
发 现 该 TLP 不 是 发 向 自己 时 ， 将 该 TLP 推 至 上 游 总 线 ， 即 PCI Bus 1。 如 果 PCI Busl 上 P-P1 
桥 片 没有 认领 该 TLP， 该 TLP 将 继续 向 P-P2 桥 片 传递 ， 并 由 这 个 桥 片 将 TLP 转发 给 合适 的 
EP; 如 果 P-P1 桥 片 认 领 该 TLP， 该 TLP 将 继续 向 上 游 总 线 传递 ， 直 至 RC。 

由 以 上 描述 可 以 发 现 ，PCIe 总 线 使 用 的 基于 ID 的 路 由 方式 与 PCI 总 线 中 配置 读 写 总 线 
事务 通过 PCI 桥 的 方法 较为 类 似 。 


6.2.3” 隐 式 路 由 


PCIe 总 线 规定 消息 请 求 报 文 使 用 隐 式 路 由 方式 。 在 PCIe 总 线 中 ， 有 许多 消息 是 直接 发 
向 RC 或 者 来 自 RC 的 广播 报 文 ， 这 些 报 文 不 使 用 地 址 或 者 ID 进行 路 由 ， 而 是 使 用 Msg 和 
MsgD 报 文 的 Route 字段 进行 路 由 ， 这 种 路 由 方式 称 为 隐 式 路 由 。 

PCIe 总 线 定义 了 一 些 用 于 中 断 请 求 、 错 误 状态 处 理 、 锁 定 总 线 事务 、 热 插 拨 信号 处 理 
和 “Vendor_Defined Messages” 消 息 报 文 。 这 些 消息 报 文 需要 使 用 隐 式 路 由 方式 进行 传递 。 
消息 报 文 的 Route 字段 的 含义 如 表 6-4 所 示 。 


表 6-4 Route [4:0] 字段 


Route [2:0] 着 汉 
000 路 由 到 RC 
ow 使 用 地 址 路 由 
019 使 用 了 D 路 由 
011 来 自 RC 的 广播 报 文 
100 。 也 消息 ， 在 接收 端 结束 (Legacy 中 断 消息 使 用 这 种 报 文 格式 ， 传 递 来 自 PCI 总 线 的 中 断 报 
文 
101 于 PCIe 电源 管理 (PME_TO_Ack 报 文 使 用 ) 
110 ~111 保留 


使 用 隐 式 路 由 方式 的 TLP， 其 Route 字段 为 “000”,“011”,“100” 或 者 “101”。 当 一 
个 报 文 使 用 隐 式 路 由 向 EP 发 送 时 ，EP 将 对 Route 字段 进行 检查 ， 如 果 这 个 报 文 是 “来 自 
RC 的 广播 报 文 ”， 或 者 是 “本 地 报 文 ” ，EP 将 接收 此 报 文 。 
如 果 Switch 收 到 一 条 使 用 隐 式 路 由 的 TLP 时 ， 将 根据 报 文 Route 字段 的 不 同 而 分 别处 
理 。 如 果 Switch 的 上 游 端 口 接收 了 一 条 来 自 RC 的 广播 消息 ， 则 将 该 报 文 发 向 所 有 的 下 游 端 
口 ;如果 Switch 接收 了 一 条 来 自 下 游 端 口 发 向 RC 的 消息 报 文 时 ，Switch 将 此 报 文 直接 转发 
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到 上 游 端口 ， 直 至 RC; 如 果 Switch 接收 了 一 条 使 用 隐 式 路 由 方式 的 本 地 消息 报 文 ， 则 
Switch 接收 并 终结 此 报 文 ， 不 再 上 传 或 下 推 。 
如 果 RC 收 到 一 个 使 用 隐 式 路 由 的 TLP 时 ， 将 根据 报 文 Route 字段 而 分 别处 理 这 些 TLP。 
如 果 该 Route 字段 为 0b000 和 0b101，RC 将 接收 该 TLP， 并 作 相 应 的 处 理 ; 如 果 为 0b100， 
RC 将 接收 该 TLP， 并 结束 该 TLP 报 文 的 传递 。 


Lt 


Tt 


6.3 存储器、I/O 和 配置 读 写 请 求 TLP 


本 节 讲 述 PCIe 总 线 定义 的 各 类 TLP， 并 详细 介绍 这 些 TLP 的 格式 。 在 这 些 TLP 中 ， 有 
些 格式 对 于 初学 者 来 说 较 难 理解 。 为 此 本 书 将 在 第 12 章 中 结合 一 个 设计 实例 ， 进 一 步 描述 
这 些 TLP 格式 。 
但 是 在 阅读 第 12 章 的 内 容 之 前 ， 读 者 需要 建立 PCIe 总 线 中 与 TLP 相关 的 一 些 基本 概 
念 ， 特 别 是 存储 器 读 写 相关 的 报 文 格式 。 在 PCIe 总 线 中 ,存储 器 读 写 ，L/O 读 写 和 配置 读 
写 请 求 TLP 由 以 下 几 类 报 文 组 成 。 

(1) 存储 器 读 请 求 TLP 和 读 完成 TLP 

当 PCIe 主 设备 ，RC 或 者 EP, 访问 目标 设备 的 存储 器 空间 时 ,使 用 Non-Posted 总 线 事 
务 向 目标 设备 发 出 存储 器 读 请 求 TLP， 目 标 设备 收 到 这 个 存储 器 读 请 求 TLP 后 ,使 用 存储 屁 
读 完 成 TLP， 主 动向 主 设备 传递 数据 。 当 主 设备 收 到 目标 设备 的 存储 器 读 完成 TLP 后 ， 将 完 
成 一 次 DMA 读 操 作 。 

(2) 存储 器 写 请 求 TLP 

在 PCIe 总 线 中 ,存储 器 写 使 用 Posted 总 线 事务 。PCle 主 设备 仅 使 用 存储 器 写 请 求 TLP 
即 可 完成 DMA 写 操作 ， 主 设备 不 需要 目标 设备 的 回应 报 文 。 

(3) 原子 操作 请 求 和 完成 报 文 

原子 操作 由 PCIe V2. 1 总 线 规范 引入 ， 一 个 完整 的 原子 操作 由 原子 操作 请 求 和 原子 操作 
完成 报 文 组 成 。 原 子 操作 的 使 用 方法 与 其 他 Non-Posted 总 线 事务 类 似 ， 首 先 PCle 主 设备 向 
目标 设备 发 送 原 子 操作 请 求 ， 之 后 目标 设备 向 主 设备 发 送 原子 操作 完成 报 文 ， 结 束 一 次 原子 
操作 。 有 关 原 子 操作 的 详细 说 明 见 第 6. 3.5 节 。 

(4) IO 读 写 请 求 TLP 和 读 写 完成 TLP 

在 PCle 总 线 中 ，1/O 读 写 操作 使 用 Non-Posted 总 线 事 务 ，1/O 读 写 TLP 都 需要 完成 报 文 
做 为 回应 。 只 是 在 1/0 写 请 求 的 完成 报 文中 不 需要 “ 带 数 据 ”， 而 仅 含有 IO 写 请 求 是 否 成 
功 的 状态 信息 。 

(5) 配置 读 写 请 求 TLP 和 配置 读 写 完成 TLP 

从 总 线 事务 的 角度 上 看 ， 配 置 读 写 请 求 操 作 的 过 程 与 VO 读 写 操作 的 过 程 类 似 。 配 置 读 
写 请 求 TLP 都 需要 配置 读 写 完成 作为 应 答 ， 从 而 完成 一 个 完成 的 配置 读 写 操作 。 

(6) 消息 报 文 

与 PCI 总 线 相 比 ，PCIe 总 线 增加 了 消息 请 求 事务 。PCIe 总 线 使 用 基于 报 文 的 数据 传送 
模式 ， 所 有 总 线 事务 都 是 通过 报 文 实现 的 ，PCIe 总 线 取 消 了 一 些 在 PCI 总 线 中 存在 的 边 带 
信号 。 在 PCIe 总 线 中 ， 一 些 由 PCI 总 线 的 边 带 信号 完成 的 工作 ， 如 中 断 请 求 和 电源 管理 等 ， 
在 PCle 总 线 中 由 消息 请 求 报 文 实现 。 


I 
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6.3.1 存储 器 读 写 请 求 TLP 
存储 器 读 写 请 求 TLP 的 格式 如 图 6-8 所 示 。 
+0 中 basd 中 


7|16~4 32 10|17|16|5~43~2|1~0 


Wd EE DE 


Byte 4 Requester ID Last DW BE |First DW BE 


Byte 8 Address[63:32] 


Byte 12 Address[31:2] 


+0 十 ] 42 +3 


7|16~4 32 10|17|16|I5~43~2|1~0 


a EE 口中 本 


Byte 4 Requester ID Last DW BE |First DW BE 


图 6-8 存储 器 和 IO 读 写 请 求 TLP 头 格式 


在 PCIe 总 线 中 ， 存 储 器 写 请 求 TLP 使 用 Posted 数据 传送 方式 。 而 其 他 与 存储 器 和 I/O 
相关 的 报 文 都 使 用 Split 方式 进行 数据 传送 ， 这 些 请 求 报 文 需 要 完成 报 文 ， 通知 发 送 端 之 前 
的 数据 请 求 报 文 已 经 处 理 完毕 ， 有 关 完 成 报 文 的 详细 说 明 见 第 6. 3.2 节 。 

存储 器 读 写 请 求 TLP 使 用 地 址 路 由 方式 进行 数据 传递 ， 在 这 类 TLP 头 中 包含 Address 字 
段 ，Address 字段 具有 两 种 地 址 格式 ， 分 别 是 32 位 和 64 位 地 址 。 在 存储 器 读 写 和 1/0 读 写 
请 求 的 第 3 和 第 4 个 双 字 中 ， 存 放 TLP 的 32 或 者 64 位 地 址 。 存 储 器 、ILO 和 原子 操作 读 写 
请 求 使 用 的 TLP 头 较为 类 似 。 本 节 仅 介绍 存储 器 、L/O 读 写 使 用 的 TLP 头 ， 而 在 第 6. 3.5 节 
详细 介绍 原子 操作 。 

1，Length 字段 

在 存储 器 读 请 求 TLP 中 并 不 包含 Data Payload， 在 该 报 文中 ，Length 字段 表示 需要 从 目 
标 设备 数据 区 域 读 取 的 数据 长 度 ; 而 在 存储 器 写 TLP 中 ， Length 字段 表示 当前 报 文 的 Data 
Payload 长 度 。 

Length 字段 的 最 小 单位 为 DW。 当 该 字段 为 n 时 ， 表 示 需 要 获得 的 数据 长 度 或 者 当前 报 
文 的 数据 长 度 为 n 个 DV， 其 中 0<n<0x3FF。 值 得 注意 的 是 ， 当 1n 等 于 0 时 ， 表 示 数 据 长 
度 为 1024 个 DW。 

2，DW BE 字段 

PCIe 总 线 以 字 节 为 基本 单位 进行 数据 传递 ， 但 是 Length 字段 以 DW 为 最 小 单位 。 为 此 
TLP 使 用 Last DW BE 和 First DW BE 这 两 个 字段 进行 字 节 使 能 ， 使 得 在 一 个 TLP 中 ， 有 效 数 
据 以 字 节 为 单位 。 
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这 两 个 DW BE 字段 各 由 4 位 组 成 ， 其 中 Last DW BE 字段 的 每 一 位 对 应 数据 Payload 最 
后 一 个 双 字 的 字 节 使 能 位 ; 而 First DW BE 字段 的 每 一 位 对 应 数据 Payload 第 一 个 双 字 的 字 
节 使 能 位 。 其 对 应 关系 如 表 6-5 所 示 。 


表 6-5 First 和 Last DW BE 字段 


第 3 位 为 1 表示 数据 Payload 的 最 后 一 个 双 字 的 字 节 3 有 效 
第 2 位 为 1 表示 数据 Payload 的 最 后 一 个 双 字 的 字 节 2 有 效 
第 1 位 。 | 为 1 表示 数据 Payload 的 最 后 一 个 双 字 的 字 节 1 有 效 
第 0 位 为 1 表示 数据 Payload 的 最 后 一 个 双 字 的 字 节 0 有 效 
第 3 位 为 1 表示 数据 Payload 的 第 一 个 双 字 的 字 节 3 有 效 
第 2 位 为 1 表示 数据 Payload 的 第 一 个 双 字 的 字 节 2 有 效 
First DW BE Oe - ER 二 本 汪汪 
第 1 人 为 1 表示 数据 Payload 的 第 一 个 双 字 的 字 节 1 有 效 
第 0 位 为 1 表示 数据 Payload 的 第 一 个 双 字 的 字 节 0 有 效 


Last DW BE 和 First DW BE 这 两 个 字段 的 使 用 规则 如 下 。 

e 如 果 传 送 的 数据 长 度 在 一 个 对 界 的 双 字 (DW) 之 内 ， 则 Last DW BE 字段 为 0b0000， 
而 First DW BE 的 对 应 位 置 1; 如 果 数 据 长 度 超过 1 DW，Last DW BE 字段 一 定 不 能 为 
0b0000。PCIe 总 线 使 用 Last DW BE 字段 为 0b0000 表示 所 传送 的 数据 在 一 个 对 界 的 
DW 之 内 。 

e 如 果 传 送 的 数据 长 度 超过 1 DW， 则 First DW BE 字段 至 少 有 一 个 位 使 能 。 不 能 出 现 
First DW BE 为 0b0000 的 情况 。 

e 如 果 传 送 的 数据 长 度 大 于 等 于 3DW， 则 在 First DW BE 和 Last DW BE 字段 中 不 能 出 
现 不 连续 的 置 1 位 。 

e 如 果 传 送 的 数据 长 度 在 1DW 之 内 时 , 在 First DW BE 字段 中 允许 有 不 连续 的 置 1 位 。 
此 时 PCIe 总 线 允 许 在 TLP 中 传送 1 个 DW 的 第 1，3 字 节 或 者 第 0，2 字 节 。 

e 如 果 传 送 的 数据 长 度 在 2DW 之 内 时 ， 则 First DW BE 字段 和 Last DW BE 字段 允许 有 
不 连续 的 置 1 位 。 

值得 注意 的 是 ，PCIe 总 线 支 持 一 种 特殊 的 读 操 作 ， 即 “Zero-Length” 读 请 求 。 此 时 
Length 字段 的 长 度 为 1DW， 而 First DW BE 字段 和 Last DW BE 字段 都 为 0b0000， 即 所 有 字 
节 都 不 使 能 。 此 时 与 这 个 存储 器 读 请 求 TLP 对 应 的 读 完 成 TLP 中 不 包含 有 效 数 据 。 再 次 提 
醒 读 者 注意 “Zero-Length” 读 请 求 使 用 的 Length 字段 为 1， 而 不 为 0， 为 0 表示 需要 获得 的 
数据 长 度 为 1024 个 DW。 

“Zero-Length” 读 请 求 的 引入 是 为 了 实现 “ 读 刷新 ”操作 ， 该 操作 的 主要 目的 是 为 了 确 
保 之 前 使 用 Posted 方式 所 传送 的 数据 ， 到 达 最 终 的 目的 地 ， 与 “Zero-Length” 读 对 应 的 读 完 
成 报 文中 不 含有 负载 ， 从 而 提高 了 PCIe 链 路 的 利用 率 。 

在 PCIe 总 线 中 ， 使 用 Posted 方式 进行 存储 器 写 时 ， 目 标 设备 不 需要 向 主 设备 发 送 回应 
报 文 ， 因 此 主 设备 并 不 知道 这 个 存储 器 写 是 和 否 已 经 达到 目的 地 。 而 主 设备 可 以 使 用 “ 读 刷 
新 ”操作 ， 向 目标 设备 进行 读 操 作 来 保证 存储 器 写 最 终 到 达 目 的 地 。 有 关 “ 读 刷新 ”的 详 
细 说 明 及 实现 原理 见 第 11 章 。 
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在 PCIe 总 线 中 ， 标 准 的 存储 器 读 请 求 也 可 以 完成 同样 的 刷新 操作 。 但 是 “Zero-Length” 
读 请 求 与 这 种 读 请 求 相 比 ， 其 完成 报 文 不 需要 “Data Payload”， 因 此 在 一 定 程 度 上 提高 了 
PCIle 总 线 的 效率 。 如 果 一 个 存储 器 读 请 求 TLP 报 文 的 TH 位 为 1 时 ，DW BE 字段 将 被 重新 
定义 为 ST [7:0] 字段 ， 有 关 ST 字段 的 详细 说 明 见 第 6. 3. 6 节 。 

3.， Requester ID 字段 

Requester ID 字段 包含 “生成 这 个 TLP 报 文 ”的 PCIe 设备 的 总 线 号 (Bus Number) 、 设 
备 号 (Device Number) 和 功能 号 (Function Number) ， 其 格式 如 图 6-9 所 示 。 对 于 存储 器 写 
请 求 TLP，Requester ID 字段 并 不 是 必须 的 ， 因 为 目标 设备 收 到 存储 器 写 请 求 TLP 后 ， 不 需 
要 完成 报 文 作为 应 答 ， 因 此 Requester ID 字段 对 于 存储 需 写 请 求 TLP 并 没有 实际 意义 。 

但 是 PCIe 总 线 规范 并 没有 明确 说 明 存 储 器 写 请 求 TLP 究竟 需 不 需要 Requester ID 字段 ， 
为 此 IC 设计 者 依然 需要 将 存储 絮 写 TLP 的 Requester ID 字段 置 为 有 效 。 值 得 注意 的 是 ， 如 
果 一 个 存储 器 写 请 求 TLP 报 文 的 TH 位 为 1 时 ，Tag 字段 将 被 重新 定义 为 ST [7:0] 字段 ， 
有 关 ST 字段 的 详细 说 明 见 第 6. 3. 6 市 。 

对 于 Non-Posted 数据 请 求 ， 目 标 设 备 需 要 使 用 完成 报 文 做 为 回应 。 在 这 个 完成 报 文中 ， 
需要 使 用 源 设 备 的 Requester ID 字段 。 因 此 在 Non-Posted 数据 请 求 TLP 中 ， 如 存储 器 读 请 
求 、LO 和 配置 读 写 请 求 TLP， 必 须 使 用 Requester ID 字段 。 

存储 器 ，I/O 读 请 求 TLP 中 含有 Requester ID 和 Tag 字段 。 在 PCle 总 线 中 Requester ID 
和 Tag 字段 合 称 为 Transaction ID，Transaction ID 字段 的 格式 如 图 6-9 所 示 。 存 储 需 读 ，LZO 
和 配置 读 写 请 求 TLP 使 用 Transaction 字段 的 主要 目的 是 使 接收 端 通过 分 析 报 文 的 Transaction 
ID ， 确 认 完 成 报 文 的 目的 地 。 


Requester ID Tag 
一 人 -人 ~ 
Device Function 
Bus Number Number Number 


图 6-9 Transaction ID 的 格式 


在 PCle 总 线 中 ， 所 有 Non-Posted 数据 请 求 都 需要 完成 报 文 作 为 应 答 ， 才 能 结束 一 次 完 
整 的 数据 传递 。 一 个 源 设 备 在 发 送 Non-Posted 数据 请 求 之 后 ， 如 果 并 没有 收 到 目标 设备 回 送 
的 完成 报 文 ，TLP 报 文 的 发 送 端 需要 保存 这 个 Non-Posted 数据 请 求 ， 此 时 该 设备 使 用 的 
Transaction ID (Tag 字段 ) 不 能 被 再 次 使 用 ， 直 到 一 次 数据 传送 结束 ， 即 数据 发 送 端 收 齐 与 
该 TLP 对 应 的 所 有 完成 报 文 。 

在 同一 个 时 间 段 内 ，PCIe 设备 发 出 的 每 一 个 Non-Posted 数据 请 求 TLP， 其 Transaction ID 
必须 是 唯一 的 。 即 在 同一 时 间 段 内 ， 在 当前 PCI 总 线 域 中 不 能 存在 两 个 或 者 两 个 以 上 的 存储 
器 读 请 求 TLP， 其 Transaction ID 完全 相同 。 

源 设备 发 送 Non-Posted 数据 请 求 后 ,在 没有 获得 全 部 完成 报 文 之 前 ， 不 能 释放 这 个 
Transaction ID 占用 的 资源 。 在 同一 个 PCIe 设备 发 送 的 TLP 中 ， 其 Requester ID 字段 是 相同 
的 ， 因 此 PCle 设备 的 设计 者 所 能 管理 的 资源 是 Tag 字段 。PCle 设备 的 设计 者 需要 合理 地 管 
理 Tag 资源 ， 以 保证 数据 传送 的 正确 性 。 

PCle 设备 在 发 送 Non-Posted 数据 请 求 时 ， 需 要 暂 存 这 些 Non-Posted 数据 请 求 。 其 中 Tag 
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字段 的 长 度 决定 了 发 送 端 能 够 暂 存 多 少 个 同类 型 的 TLP， 如 果 Tag 字段 长 度 为 5， 发 送 端 能 
够 暂 存 32 个 报 文 ; 如 果 PCIe 设备 使 能 了 Extended Tag 位 (该 位 的 详细 描述 见 第 4.3.2 节 ) ， 
Tag 字段 可 以 由 8 位 组 成 ， 此 时 发 送 端 能 够 暂 存 256 个 报 文 。 

通过 Tag 字段 的 长 度 ， 可 以 发 现 每 个 PCle 设备 最 多 可 以 暂 存 256 个 同类 型 的 Non-Posted 
报 文 。 但 是 在 多 数 情况 下 ， 一 个 PCle 设备 可 能 只 包含 1 个 Function。 因 此 PCIe 设备 还 可 以 
使 用 Function 号 扩展 Tag 字段 ， 从 而 扩展 “和 暂 存 TLP 报 文 ”的 数目 。 

PCIe 设备 在 PCI Express Capability 结构 的 Device Control 寄存 器 中 ,设置 了 一 个 Phantom 
Functions Enable 位 ， 该 位 的 详细 说 明 见 第 4. 3.2 节 。 当 一 个 PCIe 设备 仅 支持 一 个 Function 
时 ，Phantom Functions Enable 位 可 以 被 设置 为 1， 此 时 PCIe 设备 可 以 使 用 Requester ID 的 
Function Number 字段 对 Tag 字段 进一步 扩展 ， 此 时 一 个 PCIe 设备 最 多 可 以 支持 2048 个 同类 
型 的 数据 请 求 。 

由 以 上 分 析 可 以 发 现 , 一 个 PCle 设备 最 多 可 以 支持 2048 个 存储 器 读数 据 请 求 ， 基 本 上 
可 以 满足 绝 大 多 数 需 要 。 但 是 在 某 些 特殊 应 用 场合 ，PCIe 设备 即使 可 以 暂 存 2048 个 存储 器 
读 请 求 ， 也 并 不 足够 。 

与 PCI 总 线 相 比 ，PCle 总 线 的 数据 传送 延 时 较 长 ， 而 为 了 弥补 这 个 传送 延 时 ，PCle 设 
备 通常 使 用 流水 线 技术 。 此 时 PCle 设备 必须 能 够 连续 发 送 多 个 存储 器 读 请 求 报 文 ， 随 后 RC 
也 将 连续 回 送 多 个 存储 器 读 完 成 报 文 ， 在 PCIe 设备 的 实现 中 ， 需 要 保证 能 够 源源 不 断 地 从 
RC 接收 这 些 报 文 ， 以 充分 利用 报 文 接 收 流水 线 ， 有 关 这 部 分 内 容 详 见 第 12.4.3 节 。 

PCIe V2. 1 总 线 规范 还 提出 了 男 一 种 Requester ID 格式 ， 即 ARI ( Alternative Routing-ID 
Interpretation ) 格式 ， 除 了 Requester ID 外 ， 在 完成 报 文 中 使 用 的 Completer ID 也 可 以 使 用 这 
种 格式 。ARI 格式 将 有 D 号 分 为 两 个 字段 ， 分 别 为 Bus 号 和 Function 号 ， 而 不 使 用 Device 号 ， 
ARI 格式 如 图 6-10 所 示 。 


ARIID 


一 ~ 


Bus Number Function Number 


图 6-10 ”ARI 格式 


PCIe 总 线 引 入 ARI 格式 的 依据 是 在 一 个 PCIe 链 路 上 仅 可 能 存在 一 个 PCIe 设备 ， 因 而 
其 Device 号 一 定 为 0。 在 多 数 PCle 设备 中 ，Requester ID 和 Completion ID 包含 的 Device 号 是 
没有 意义 的 。 使 用 ARI 格式 时 ， 一 个 PCfe 设备 最 多 可 以 支持 256 个 Function ， 而 传统 的 
PCIe 设备 最 多 只 能 支持 8 个 Function。 

4. LO 读 写 请 求 TLP 的 规则 

LO 读 写 请 求 与 存储 器 读 写 请 求 TLP 的 格式 基本 类 似 ， 只 是 WO 读 写 请 求 TLP 只 能 使 用 
32 位 地 址 模式 和 基于 地 址 的 路 由 方式 ， 而 且 IO 读 写 请 求 TLP 只 能 使 用 Non-Posted 方式 进 
行 传递 。PCle 总 线 并 不 建议 PCIe 设备 支持 IO 地 址 空间 ， 但 是 Switch 和 RC 需要 具备 接收 
和 发 送 LO 请 求 报 文 的 能 力 ， 因 为 许多 老 的 PCI 设备 依然 使 用 IO 地 址 空间 ， 这 些 PCI 设备 
可 以 通过 PCIe 桥 连 接 到 PCIe 总 线 中 。 因 此 虽然 支持 IO 读 写 请 求 的 PCle 设备 极 少 ， 但 是 
在 PCle 体系 结构 中 ， 依 然 需 要 支持 PCI 总 线 域 的 IO 地 址 空间 。 

与 存储 器 读 写 请 求 TLP 不 同 ，L/O 读 写 请 求 TLP 的 某 些 字段 必须 为 以 下 值 。 
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e TC [2:0] 必须 为 0，LO 请 求 报 文 使 用 的 TC 标签 只 能 为 0。 

e TH 和 Att2 位 保留 ， 而 Attr [1:0] 必须 为 “0b00”， 这 表示 IO 请 求 报 文 必须 使 用 
PCI 总 线 的 强 序数 据 传 送 模式 ， 而 且 在 传送 过 程 中 ， 硬 件 保 证 其 传送 的 数据 与 Cache 
保持 一 致 ， 实 际 上 LIZO 地 址 空间 都 是 不 可 Cache 的 。 

e AT [1:0] 必须 为 “0b00”， 表 示 不 支持 地 址 转换 ， 因 此 在 虚拟 化 技术 中 ， 并 不 处 理 
ee sx 间 。 

e Length [9:0] 为 “0b00 0000 0001”， 表 示 LO 读 写 请 求 TLP 最 大 的 数据 Payload 为 
1DW， 该 类 TLP 不 支持 突 发 传送 。 

e Last DW [3:0] 为 “0b0000”。 


6. 3.2 ”完成 报 文 


PCIe 总 线 支持 Split 传送 方式 ， 目 标 设 备 使 用 完成 报 文 向 源 设备 主动 发 送 数据 。 完 成 报 
文 使 用 ID 路 由 方式 ， 由 TLP Predix 、 报 文 头 和 Data Payload 组 成 ， 但 是 某 些 完成 报 文 可 以 不 
含有 Data Payload， 如 LO 或 者 配置 写 完成 和 Zero-Length 读 完成 报 文 。 在 PCIe 总 线 中 ， 有 以 
下 几 类 数据 请 求 需要 收 到 完成 报 文 之 后 ， 才 能 完成 整个 数据 传送 过 程 ， 完 成 报 文 格式 如 
图 6-11 所 示 。 

e 所 有 的 数据 读 请 求 ， 包 括 存储 器 、1/O 读 请 求 、 配 置 读 请 求 和 原子 操作 请 求 。 当 一 个 

PCIe 设备 发 出 这 些 数据 请 求 报 文 后 ， 必 须 收 到 目标 设备 的 完成 报 文 后 ， 才 能 结束 一 
次 数据 传送 。 这 一 类 完成 报 文 必须 包含 Data Payload。 

e 所 有 的 Non-Posted 数据 写 请 求 ， 包 括 IO 和 配置 写 请 求 。 es 
数据 请 求 报 文 后 ， 必 须 收 到 目标 设备 的 完成 报 文 后 ， 才 能 结束 数据 传送 。 但 是 这 一 类 
完成 报 文 不 包含 数据 ， 仅 包含 应 答 信 息 。 

e 与 ATS 机 制 相 关 的 一 些 报 文 ， 详 见 第 13. 2 节 。 


+0 在] 42 43 


Se 3 2 10|17|6|5~4|3~2|1~0 


Byte 4 Completer ID Status Byte Count 


Byte 8 Requester ID Lower Address 


图 6-11 完成 报 文 头 格式 


完成 报 文 “Byte 0” 中 的 大 部 分 字段 与 “存储 器 ，LLO 、 配 置 请 求 报 文 ”的 对 应 字段 的 
含义 相同 。 完 成 报 文 一 次 最 多 能 够 传送 的 报 文大 小 不 能 超过 Max_Payload_Size 参数 。 在 多 数 
处 理 器 中 ， 完 成 报 文中 包含 的 数据 在 一 个 Cache 行 之 内 ， 完 成 报 文 使 用 RCB 参数 来 处 理 数 
据 对 界 ，RCB 参数 的 大 小 与 处 理 器 系统 的 Cache 行 长 度 和 DDR-SDRAM 的 一 次 突 发 传送 长 度 
相关 ， 这 些 参数 的 详细 描述 见 第 6. 4. 3 节 。 在 x86 和 PowerPC 处 理 器 中 ， 一 个 存储 器 读 完成 
报 文 一 般 不 超过 RCB 参数 。 
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1，Requester ID 和 Tag 字段 

完成 报 文 使 用 ID 路 由 方式 ，ID 路 由 方式 详 见 第 6.2.2 节 。 完 成 报 文 头 的 长 度 为 3DW， 
完成 报 文 头 中 包含 Transaction ID 信息 ， 由 Requester ID 和 Tag 字段 组 成 ， 这 个 ID 必须 与 源 
设备 发 送 的 数据 请 求 报 文 的 Transaction ID 对 应 5 完成 报 文 使 用 Transaction ID 进行 ID 路 由 5 
并 将 数据 发 送 给 源 设 备 。 

当 PCIe 设备 收 到 存储 器 读 、L/O 读 写 或 者 配置 读 写 请 求 TLP 时 ， 需 要 首先 保存 这 些 报 
文 的 Transaction ID ， 之 后 当 该 设备 准备 好 完成 报 文 后 ， 将 完成 报 文 的 Requester ID 和 Tag 字 
段 赋值 为 之 前 保存 的 Transaction ID 字段 。 

2. Completer ID 字段 

Completer ID 字段 的 含义 与 Requester ID 字段 较为 相似 ， 只 是 该 字段 存放 “发 送 完 成 报 
文 ”的 PCIe 设备 的 ID 号 。PCIe 设备 进行 数据 请 求 时 需要 在 TLP 字段 中 包含 Requester ID 字 
段 ; 而 使 用 完成 报 文 结 束 数据 请 求 时 ， 需 要 提供 Completer ID 字段 。 

3.， Status 字段 

Status 字段 保存 当前 完成 报 文 的 完成 状态 ， 表 示 当 前 TLP 是 正确 地 将 数据 传递 给 数据 请 
求 端 ; 还 是 在 数据 传递 过 程 中 出 现 错误 ; 或 者 要 求 数据 请 求 方 进行 重 试 。PCIe 总 线 规定 了 
几 类 完成 状态 ， 如 表 6-6 所 示 。 


表 6-6 Status 字段 


Status [2:0] 描 述 
0b000 SC (Sucessful Completion ) ， 正常 结束 
0b001 UR (Unsupported Request ) ， 不 支持 的 数据 请 求 
CRS (Configuration Request Retry Status) ， 要 求 数据 请 求 方 进行 重 试 。 当 RC 对 一 个 PCIe 目标 
0b010 设备 发 起 配置 请 求 时 ， 如 果 该 目标 设备 没有 准备 好 ， 可 以 向 RC 发 出 CRS 完成 报 文 ， 当 RC 收 
到 这 类 报 文 时 ， 不 能 结束 本 次 配置 请 求 ， 必 须 择 时 重新 发 送 配置 请 求 
0b100 CA (Completion Abort) ， 数 据 天 折 。 表 示 目 标 设备 无 法 完成 本 次 数据 请 求 
其 他 保留 


4. BCM 位 与 Byte Count 字段 

BCM (Byte Count Modified) 字段 由 PCI-X 设备 设置 。PCI-X 设备 也 支持 Split Trans- 
action 传送 方式 ， 当 PCI-X 设备 进行 存储 器 读 请 求 时 ， 目 标 设备 不 一 定 一 次 就 能 将 所 有 
数据 传递 给 源 设备 。 此 时 目标 设备 在 进行 第 一 次 数据 传送 时 ， 需 要 设置 Byte Count 字段 
和 BCM 位 。 

BCM 位 表示 Byte Count 字段 是 否 被 更 改 ， 该 位 仅 对 PCI-X 设备 有 效 ， 而 PCIe 设备 不 能 
操纵 BCM 位 ， 只 有 PCI-X 设备 或 者 PCIe-to-PCI-X 桥 可 以 改变 该 位 。 本 节 对 此 位 不 做 进一步 
介绍 ， 对 此 位 感 兴趣 的 读者 可 以 参考 PCI-X Addendum to the PCI Local Bus Specification ，Revi- 
sion 2.0。 

Byte Count 字段 记录 源 设备 还 需要 从 目标 设备 中 获得 多 少 字 节 的 数据 就 能 完成 全 部 数据 
传递 ， 当 前 TLP 中 的 有 效 负 载 也 被 Byte Count 字段 统计 在 内 。 该 字段 由 12 位 组 成 。 该 字段 
为 0b0000-0000-0001 表示 还 剩 一 个 字 节 ,为 0bl1111-1111-1111 表示 还 剩 4095 个 字 节 ， 而 为 
0b0000-0000-0000 表示 还 剩 4096 个 字 节 。 除 了 存储 器 读 请 求 的 完成 报 文 外 ， 大 多 数 完成 报 
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文 的 Byte Count 字段 为 4。 

如 一 个 源 设备 向 目标 设备 发 送 一 个 “ 读 取 128B 的 存储 器 读 请 求 TLP”， 而 目标 设备 收 
到 这 个 读 请 求 TLP 后 ， 可 能 使 用 两 个 存储 器 读 完成 TLP 传递 数据 。 其 中 第 1 个 存储 器 读 完 
成 TLP 的 有 效 数据 为 64 B， 而 Byte Count 字段 为 128; 第 2 个 存储 器 读 完 成 TLP 中 的 有 效 数 
据 为 64 B， 而 Byte Count 字段 也 为 64。 当 数据 请 求 端 接收 完毕 第 1 个 存储 器 读 完成 TLP 后 ， 
发 现 还 有 64 B 的 数据 没有 接收 完毕 ， 此 时 必须 等 待 下 一 个 存储 器 读 完成 TLP。 等 到 数据 请 
求 端 收 齐 所 有 数据 后 ， 才 能 结束 整个 存储 器 读 请 求 。 

目标 设备 发 出 的 第 2 个 读 完 成 TLP 中 的 有 效 数据 为 64B， 而 Byte Count 字段 为 64 ， 当 数 
据 请 求 端 接收 完毕 这 个 读 完成 TLP 后 ， 将 完成 一 个 完整 的 存储 器 读 过 程 ， 从 而 可 以 释放 这 
个 存储 器 读 过 程 使 用 的 Tag 资源 。 

存储 器 读 请 求 的 完成 报 文 的 拆 分 方式 较为 复杂 ，Byte Count 字段 的 设置 也 相对 较为 复 
杂 。 在 第 12 章 将 结合 一 个 实例 讲述 该 字段 的 使 用 方法 。 

5. Lower Address 字段 

如 果 当 前 完成 报 文 为 存储 器 读 完成 TLP， 该 字段 存放 在 存储 器 读 完成 TLP 中 第 一 个 数据 
所 对 应 地 址 的 最 低位 。 值 得 注意 的 是 ， 在 完成 报 文中 ， 并 不 存在 First DW BE 和 Last DW BE 
字段 ， 因 此 接收 端 必须 使 用 存储 器 读 完 成 TLP 的 Low Address 字段 ， 识 别 一 个 TLP 中 包含 数 
据 的 起 始 地 址 。 第 12. 2. 2 节 将 详细 介绍 该 字段 的 作用 。 


6. 3.3 配置 读 写 请 求 TLP 


配置 读 写 请 求 TLP 由 RC 发 起 ， 用 来 访问 PCIe 设备 的 配置 空间 。 配 置 请 求 报 文 使 用 基 
于 ID 的 路 由 方式 。PCIe 总 线 也 支持 两 种 配置 请 求 报 文 ， 分 别 为 Type 00h 和 Type 01h 配置 请 
求 。 配 置 请 求 TLP 的 格式 如 图 6-12 所 示 。 


40 十 1 得 十 3 
7|16|5 4 一 0 7| 6~4 32 10|17|16|5~4|3~2|1~0 7~0 

> 

| me |e eles | | 
[3 

Byte 4 g Tast DWEE |First DWBE 

. Function Ext.Reg. ; 
ek Ce 0 四 


图 6-12 配置 请 求 报 文 头 格式 


Byte 0 


Requester ID Ta 


配置 请 求 TLP 的 第 4 ~7 字 节 与 存储 器 请 求 TLP 类 似 。 而 第 8 ~ 11 字 节 的 Bus 、Dervice 
和 Function Number 中 存放 该 TLP 访问 的 目标 设备 的 相应 的 号 码 ， 而 Ext Register 和 Reigister 
Number 存放 寄存 器 号 。 配 置 请 求 报 文 的 其 他 字段 必须 为 以 下 值 。 
e TC [2:0] 必须 为 0，LO 请 求 报 文 的 传送 类 型 (TC) 只 能 为 0。 
e TH 位 为 保留 位 ; Attr2 位 为 保留 ， 而 Attr [1:0] 必须 为 “00b”， 这 表示 1/O 请 求 报 
文 使 用 PCI 总 线 的 强 序数 据 传送 模式 ;AT [1:0] 必须 为 “0b00”， 表 示 不 进行 地 址 
转换 。 
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e Length [9:0] 为 “0b00 0000 0001”， 表 示 配 置 读 写 请 求 最 大 Payload 为 1DW。 
e Last DW BE 字段 为 “0b0000”。 而 First DW BE 字段 根据 配置 读 写 请 求 的 大 小 设置 。 


6.3.4 消息 请 求 报 文 


在 PCIe 总 线 中 ， 多 数 消息 报 文 使 用 隐 式 路 由 方式 ， 其 格式 如 网 6-13 所 示 。 其 中 Byte 0 
字段 为 通用 TLP 头 ， 而 Byte 4 的 第 3 字 节 中 存放 Message Code 字段 。 


+0 +1 42 +3 


2 3 2 10|17|6|5~4|3~2|1~0 


Byte 4 Requester ID Message Code 


Byte 8 


除了 Vendor Defined Message 之 外 ， 其 他 Message 不 能 使 用 Byte 8 一 15 


Byte 12 


图 6-13 Message 请 求 TLP 头 格 式 


PCIe 总 线 规定 了 以 下 几 类 消息 报 文 。 

e INTx 中 断 消 息 报 文 (INTx Interrupt Signaling) 。 

e 电源 管理 消息 报 文 (Power Management ) 。 

e 错误 消息 报 文 (Error Signaling) 。 

e 锁定 事务 消息 报 文 (Locked Transaction Support) 。 

。 插 模 电源 限制 消息 报 文 (Slot Power Limit Support ) 。 

® Vendor-Defined Messages。 

本 节 将 重点 讲述 INTx 中 断 和 错误 信息 相关 的 消息 报 文 ， 请 读者 阅读 PCIe 总 线 规 范 了 解 
其 他 消息 报 文 。 

1.INTx 中 断 消息 报 广 

PCIe 总 线 推荐 设备 使 用 MSI 或 者 MSI-X 机 人 制 提 交 中 断 请 求 ， 但 是 MSI 中 断 机 制 并 不 是 
由 PCle 总 线 首 先 提出 的 ， 在 PCI 总 线 中 就 已 经 存在 这 种 中 断 请 求 机 制 。 

在 PCI 总 线 中 ,虽然 提出 了 MSI 中 断 机 制 ， 但 是 几乎 没有 PCI 设备 使 用 这 种 机 制 进行 中 
断 请 求 。MSI 中 断 机 制 是 一 种 基于 存储 器 写 的 中 断 请 求 机 制 ， 而 PCI 设备 提交 MSI 中 断 请 
求 ， 将 占用 PCI 总 线 的 带宽 ， 因 此 多 数 PCI 设备 使 用 INTx 信和 号 进行 中 断 请 求 。 

在 PCIe 总 线 中 ，PCIe 设备 可 以 使 用 Legacy 中 断 方式 提交 中 断 请 求 ， 此 时 需要 使 用 了 INTx 
中 断 消息 报 文 向 RC 通知 中 断 事件 。 除 此 之 外 在 PCIe 体系 结构 中 仍然 存在 PCI 设备 ， 这 
设备 可 能 使 用 INTx 信和 号 提交 中 断 请 求 。 

例如 在 PCle 桥 片 上 挂 接 的 PCI 设备 可 能 并 不 支持 MSI 中 断 机 制 ， 因 此 需要 使 用 INTx 中 
断 信 号 提交 中 断 请 求 ， 此 时 PCIe 桥 需要 将 INTx 信号 转换 为 INTx 中 断 消息 报 文 ， 并 向 RC 提 
交 中 断 请 求 。 在 PCIe 总 线 中 ,共有 8 种 INTx 中 断 消息 报 文 ， 见 表 6-7。 
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表 6-7 INTx 中 断 消 息 报 文 


名 称 Code [7:0] | Routing r [2:0] Requester ID 描 ” 述 
Assert_INTA 0010 0000 100 BE 0 
Assert_INTB 0010 0001 100 同上 置 INTB# 信 号 有 效 
Assert_INTC 0010 0010 100 同上 置 INTC# 信 号 有 效 
Assert_INTD 0010 0011 100 同上 置 INTD# 信 号 有 效 
Deassert_INTA 0010 0100 100 同上 置 INTA# 信 号 无 效 
Deassert_INTB 0010 0101 100 同上 置 INTB# 信 号 无 效 
Deassert_INTC 0010 0110 100 同上 置 INTC# 信 号 无 效 
Deassert_INTD 0010 0111 100 同上 置 INTD# 信 号 无 效 


当 PCIe 设备 不 使 用 MSI 报 文 向 RC 提交 中 断 请 求 时 ， 可 以 首先 使 用 Assert_INTx 报 文 向 
处 理 需 系统 提交 中 断 请 求 ， 当 中 上 断 处 理 完 毕 ， 再 使 用 Deassert_INTx 报 文 。 这 些 INTx 中 断 消 
息 报 文 的 rz [2:0] 字段 为 0b100， 即 为 Local 消息 报 文 。 设 备 收 到 该 消息 报 文 后 ， 将 结束 收 
到 的 INTx 中 断 消息 报 文 ， 然 后 产生 一 个 新 的 INTx 中 断 消 息 报 文 。 

在 一 个 处 理 器 系统 中 ，PCI 设备 首先 需要 通过 PCIe 桥 ， 之 后 可 能 通过 多 级 Switch ， 最 终 
到 达 RC。 假 设 PCI 设备 使 用 INTA# 信 号 进行 中 断 请 求 ， 但 是 由 于 中 断路 由 表 的 存在 ，PCIe 
桥 可 能 将 INTA# 信 和 号 转换 为 INTB 中 断 消息 ， 而 这 个 INTB 中 断 消 息 通 过 Switch 时 ， 可 能 
被 Switch 的 中 断路 由 表 转 换 为 INTC 中 断 消息 。 因 此 PCIe 设备 收 到 INTx 中 断 消息 后 ， 首 先 
需要 结束 当前 中 断 消息 ， 之 后 根据 中 断路 由 表 产 生 一 个 新 的 INTx 中 断 消息 ， 直 到 这 个 中 断 
消息 传递 到 RC。 

2. 错误 消息 报 文 

在 第 4. 3. 3 节 中 简要 介绍 了 AER Capability 结构 。 如 果 PCle 设备 支持 AER Capability 结 
构 ， 当 PCle 设备 出 现 某 种 错误 时 ， 将 向 RC 或 者 RC Event Collector 发 送 错误 消息 报 文 ， 之 
后 RC 或 者 RC Event Collector 将 根据 错误 类 型 分 别 进行 处 理 。 

PCIe 总 线 规范 定义 了 两 大 类 错误 类 型 ， 分 别 是 可 恢复 错误 ( Correctable Errors) 和 不 可 
恢复 错误 (Uncorrectable Errors ) ， 不 可 恢复 错误 又 细 分 为 致命 错误 (Fatal) 和 非 致命 错误 
(Nonfatal) 。 当 PCle 设备 出 现 这 些 错误 时 ， 将 使 用 ERR_COR .ERR_NONFATAL 和 ERR_FA- 
TAL 错误 消息 报 文 向 RC 或 者 RC Event Collector 发 送 错误 消息 报 文 。 

PCIe 总 线 规范 并 没有 详细 描述 “可 恢复 错误 ”和 “不 可 恢复 错误 ”的 具体 处 理 方法 ， 
也 没有 详细 描述 PCIe 设备 的 错误 恢复 机 制 。 对 于 PCIe 设备 ， 这 些 处 理 方法 并 不 重要 。PCle 
总 线 定义 AER 机 制 的 主要 考虑 是 ， 由 PCIe 设备 将 错误 信息 “统一 报告 ”给 RC 或 者 RC FE- 
vent Collector， 并 由 RC 或 者 RC Event Collector“ 统 一 处 理 ” 这 些 错误 。 其 中 “统一 报告 ” 
和 “统一 处 理 ” 才 是 AER 机 制 的 设计 要 点 。 

当 PCle 设备 出 现 某 种 错误 后 ， 首 先 将 这 些 错误 信息 保留 在 设备 的 AER Capability 结构 
中 ， 之 后 RC 或 者 RC Event Collector 从 “来 自 PCIe 设备 的 错误 信息 报 文 ”中 获得 相应 的 错 
误 信 息 。 为 此 在 RC 中 设置 了 一 个 “Error Source Identification” 寄存 器 保存 究竟 是 哪个 PCIe 
设备 发 出 的 错误 信息 报 文 ， 之 后 RC 或 者 RC Event Collector 向 处 理 器 系统 提交 中 断 请求 ， 由 
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相应 的 中 断 服务 例 程 统一 处 理 所 有 PCIe 设备 的 错误 信息 。 

由 RC 统一 处 理 所 有 PCIe 设备 错误 信息 的 这 种 做 法 ， 势 必 加 大 RC 和 系统 软件 的 设计 复 
杂 度 。 而 外 部 设备 的 多 样 性 与 复杂 程度 决定 了 使 用 这 种 方法 不 一 定 能 够 取得 较 好 的 效果 。 目 
前 Intel 的 Chipset 已 经 支持 AER 机 制 , 但 是 绝 大 多 数 PCIe 设备 并 不 支持 AER 机 制 。AER 机 
制 是 Intel 统一 外 部 设备 错误 处 理 的 一 种 方法 ， 这 为 PCIe 设备 的 设计 提出 了 更 高 的 要 求 ， 而 
这 种 方法 是 否 能 够 取得 理想 的 效果 ， 仍 需 观察 。 


6.3.5 PCIe 总 线 的 原子 操作 


PCIe V2.1 总 线 规范 引入 原子 操作 的 概念 ， 原 子 操作 仅 能 在 存储 器 访问 中 使 用 。 其 中 
RC 和 EP 可 以 作为 原子 操作 的 请 求 者 和 接收 者 ， 而 Switch 和 多 端口 RC 支持 原子 操作 的 转 
发 。PCle 总 线 支持 三 类 原子 操作 ， 分 别 是 EP-to-EP，EP-to-RC 和 RC-to-EP 的 原子 操作 。 

原子 操作 有 利于 提高 智能 设备 2 之 间 以 及 智能 设备 与 处 理 器 之 间 的 数据 传递 效率 。 当 智 
能 设备 与 处 理 器 进行 数据 交换 时 ， 将 不 可 避免 地 使 用 某 种 锁 机 制 访问 临界 资源 。 传 统 的 做 法 
是 使 用 “ 带 锁 的 ”存储 器 总 线 事务 实现 这 些 锁 机 制 。 而 使 用 原子 操作 可 以 在 很 大 程度 上 降 
低 “ 带 锁 的 ”存储 需 读 写 请 求 TLP 的 使 用 ， 从 而 提高 PCIe 总 线 的 使 用 效率 。 

PCIe 设备 使 用 一 次 原子 操作 可 以 实现 之 前 需要 多 次 数据 操作 才能 完成 的 数据 交换 任务 ， 
除 此 之 外 PCIe 设备 使 用 原子 操作 还 可 以 避免 使 用 带 锁 的 PCIe 总 线 事务 。 原 子 操作 的 基本 过 
程 如 下 所 示 。 

(1) 源 设备 向 目标 设备 发 送 原子 操作 请 求 TLP。 原 子 操作 请 求 TLP 使 用 Non-Posted 方式 
进行 数据 传递 ， 且 使 用 基于 地 址 的 路 由 方式 。 

(2) 当 目 标 设备 收 到 这 个 原子 操作 请 求 TLP 之 后 ,将 从 这 个 TLP 指定 的 存储 器 空间 中 
读 取 原 始 数 据 。 

(3) 目标 设备 将 “原始 数据 ”与 “原子 操作 请 求 TLP 中 包含 的 操作 数 ” 进 行 某 种 规定 
的 运算 后 产生 一 个 新 的 数据 。 这 一 过 程 不 可 被 其 他 总 线 事务 中 断 ，PCIe 设备 保证 这 一 过 程 
为 原子 操作 。 这 个 步骤 对 于 原子 操作 至 关 重 要 ， 也 是 原子 操作 的 实现 要 点 。 

(4) 当 上 述 原 子 操作 执行 完毕 后 ， 目 标 设备 使 用 原子 操作 完成 报 文 向 源 设备 传送 数据 ， 
并 将 这 个 新 的 数据 写 入 目标 设备 的 存储 器 空间 中 。 原 子 操作 完成 报 文 与 存储 器 读 完成 的 传递 
方式 类 似 。 

由 以 上 分 析 ， 可 以 发 现 所 谓 原 子 操作 是 指 PCIe 设备 “ 读 取 原 始 数 据 ”、“ 运 算 ” 和 “ 产 
生 新 的 数据 ”这 三 个 过 程 不 可 被 其 他 操作 打 断 。 这 三 个 过 程 将 在 目标 设备 中 一 次 完成 ， 并 
由 目标 设备 的 硬件 逻辑 保证 这 三 个 过 程 不 会 被 其 他 TLP 干扰 。 

由 上 文 所 述 ， 一 个 完整 的 原子 操作 由 原子 操作 请 求 TLP 和 完成 TLP 组 成 。 其 中 原子 操 
作 请 求 TLP 的 报 文 头 与 存储 器 请 求 TLP 类 似 ， 如 图 6-8 所 示 。 原 子 操作 请 求 TLP 具有 Data 
Payload 字段 ， 在 Data Paylaod 中 包含 原子 操作 请 求 TLP 使 用 的 操作 数 。 

目前 ，PCle 总 线 共 支持 3 种 原子 操作 ， 分 别 为 FetechAdd 、Swap 和 CAS 原子 操作 。 不 同 
的 原子 操作 使 用 的 操作 数 个 数 并 不 相同 ， 其 中 FetchAdd 和 Swap 原子 操作 使 用 一 个 操作 数 ， 


G@ 智能 设备 中 含有 一 个 功能 较 强 的 处 理 器 ， 目 前 高 端 显卡 、 网 卡 上 都 包含 一 个 处 理 器 ， 这 类 设备 都 可 以 被 称 为 智 


能 设备 。 
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而 CAS 原子 操作 使 用 两 个 操作 数 。 

1. FetchAdd 操作 

FetchAdd 操作 支持 32b 或 者 64b 的 操作 数 。 如 果 该 TLP 的 Length 字段 为 1DW 时 ， 操 作 
数 的 长 度 为 32b; 如 果 该 TLP 的 Length 字段 为 2DW 时 ， 操 作 数 的 长 度 为 64b。FetchAdd 操 
作 的 执行 过 程 如 下 所 示 。 

(1) PCIe 设备 从 TLP 的 指定 PCI 总 线 地 址 中 获得 原始 数据 。 

(2) 将 原始 数据 与 TLP 中 的 操作 数 相 加 ， 并 得 到 一 个 新 的 数据 。 相 加 的 结果 忽略 进位 
与 溢出 位 。 

(3) 将 这 个 新 的 数据 写 入 TLP 指定 的 PCI 总 线 地 址 中 。 

(4) 使 用 完成 报 文 返回 指定 PCI 总 线 地 址 中 的 原始 数据 。 

2.，Swap 总 线 事务 

Swap 操作 也 支持 32b 或 者 64b 的 操作 数 ， 其 原则 与 FetchAdd 操作 完全 一 致 。Swap 操作 
的 执行 过 程 如 下 所 示 。 

(1) PCIe 设备 从 TLP 指定 的 PCI 总 线 地 址 中 读 取 原始 数据 。 

(2) 将 TLP 中 的 操作 数 写 入 TLP 指定 的 PCI 总 线 地 址 。 

(3) 使 用 完成 报 文 返回 PCI 总 线 地 址 中 的 原始 数据 。 

3，CAS 总 线 事务 

CAS 操作 支持 32b、64b 或 者 128b 的 操作 数 。 如 果 该 TLP 的 Length 字段 为 2DW 时 ， 操 
作 数 的 长 度 为 32b; 如 果 该 TLP 的 Length 字段 为 4DW 时 ， 操 作 数 的 长 度 为 64b; 如 果 该 TLP 
的 Length 字段 为 8DW 时 ， 操 作 数 的 长 度 为 128b。CAS 总 线 事务 含有 两 个 操作 数 ， 分 别 为 
“Compare” 和 “Swap”。CAS 操作 的 执行 过 程 如 下 所 示 。 

(1) PCIe 设备 从 TLP 指定 的 PCI 总 线 地 址 中 获得 原始 数据 。 

(2) 将 原始 数据 与 “Compare” 操作 数 进 行 比较 。 

(3) 如 果 结 果 相 等 ， 则 将 “Swap” 操 作 数 写 入 TLP 指定 的 位 置 。 

(4) 使 用 完成 报 文 返回 PCI 总 线 地 址 中 的 原始 数据 。 
智能 设备 之 间 以 及 智能 设备 与 处 理 器 之 间 如 果 需 要 使 用 “Spin Lock” 操 作 时 ， 可 以 使 
用 CAS 原子 操作 实现 。 值 得 注意 的 是 ， 在 x86 处 理 器 的 指令 集中 ， 也 含有 CAS 类 指令 ， 该 
指令 是 实现 “Spin Lock” 的 基础 。 但 是 在 处 理 器 系统 中 使 用 的 “Spin Lock” 操 作 与 智能 设 
备 使 用 的 “Spin Lock” 操 作 在 实现 上 有 所 不 同 。 


6.3.6 TLP Processing Hint 


当 TLP 的 TH 位 为 1 时， 表示 在 当前 TLP 中 包含 Processing Hint 字段 ，PH 字段 由 PCIe 
V2. 1 总线 规 范 引 入 。 该 字段 的 引入 可 以 使 目标 设备 根据 源 设备 对 数据 的 使 用 情况 ,合理 地 
安排 数据 缓冲 ， 从 而 降低 PCIe 设备 的 访问 延 时 ， 并 最 大 化 地 利用 PCIle 设备 中 的 数据 缓冲 。 

Processing Hint 字段 的 产生 与 智能 设备 的 大 量 涌现 密切 相关 。 在 智能 设备 中 ， 含 有 一 个 
运算 能 力 相 当 强 的 处 理 器 。 智 能 设备 与 处 理 器 之 间 的 数据 交换 ， 实 质 上 等 效 于 两 个 处 理 器 系 
统 之 间 的 数据 传递 。 有 些 智能 设备 ， 如 在 显卡 中 使 用 的 GPU ( Graphic Processing Unit) 和 
GP-GPU (Germneral Purpose GPU) 的 处 理 能 力 甚 至 超过 多 数 通 用 处 理 器 。 智 能 设备 与 处 理 兢 
系统 可 以 采用 图 6-14 所 示 的 拓扑 结构 连接 。 

778 


网 络 节点 ”内 部 互联 网 
A 

智能 存 智能 存 

储 器 1 储 器 2 


图 6-14 智能 外 设 与 处 理 器 系统 的 连接 


在 这 种 处 理 器 系统 中 ， 内 部 互连网 络 处 于 核心 地 位 ， 上 图 所 示 的 网 络 是 一 个 理想 的 全 互 
连结 构 。 在 这 种 互 连 结构 中 ， 处 理 器 、 存 储 器 和 智能 设备 与 网 络 节点 相连 。 在 这 种 结构 中 ， 
在 网 络 节点 上 连接 的 设备 都 含有 一 个 处 理 器 ， 包 括 存 储 器 。 

当 智 能 设备 与 处 理 需 进行 通信 时 ， 如 果 能 够 预知 数据 的 使 用 情况 ， 无 疑 能 够 减低 数据 的 
访问 延 时 。 如 智能 设备 1 将 一 组 数据 写 入 智能 存储 器 1 之 后 ， 如 果 这 个 智能 存储 器 1 能 够 预 
测 这 组 数据 将 很 快 被 再 次 使 用 ， 则 可 以 将 这 组 数据 放 人 到 高 速 缓冲 中 ， 而 不 必 放 入 低速 缓冲 
中 。 当 这 组 数据 被 再 次 使 用 时 ， 智 能 存储 器 1 可 以 很 快 将 数据 从 高 速 缓冲 中 读 出 ， 从 而 缩短 
了 访问 延 时 。 

PCIe 总 线 引 入 了 PH 字段 的 主要 目的 是 为 了 加 速 外 部 设备 访问 主 存储 器 ， 即 DMA 操作 ， 
同时 也 兼顾 SMP 处 理 器 系统 对 PCle 设备 的 访问 。 但 是 PH 字段 仍然 没有 完全 包含 上 述 模型 
的 所 有 内 容 ， 因 为 在 上 述 模 型 中 ， 知 能 存储 器 是 独立 与 PCIe 体系 结构 的 RC 的 ， 而 且 智能 
外 设 之 间 具 有 独立 连接 通路 ， 在 这 种 模型 中 ， 芯 片 内 部 的 互连网 络 是 真正 的 设计 核心 。 目 前 
在 P4080 处 理 器 和 Boxboro-EX 处 理 器 系统 中 ， 具 有 全 互连网 络 结构 。 

1，PH 字段 

PCIe 总 线 使 用 PH 字段 ， 使 智能 设备 或 者 处 理 器 提前 预知 数据 的 使 用 方法 。PH 字段 仅 
在 与 存储 器 访问 相关 的 TLP 中 出 现 ， 该 字段 由 两 位 组 成 ,在 TLP 中 的 位 置 如 图 6-8 所 示 ， 
其 详细 说 明 如 表 6-8 所 示 。 


表 6-8 PH 字段 


PH [1:0] Processing Hint 描述 
00 双向 数据 结构 表示 该 TLP 中 的 数据 ， 经 常 被 源 设备 和 目标 设备 使 用 
01 Requester 表示 该 TLP 中 的 数据 ， 经 常 被 源 设备 使 用 
10 Target 表示 该 TLP 中 的 数据 ， 经 常 被 目标 设备 使 
11 Target with Priority 与 “Target” 类 似 ,但 是 级 别 更 高 


当 PH [1:0] 为 0b01 时 ,表示 TLP 中 的 数据 经 常 被 设备 使 用 ， 包 括 以 下 四 种 类 型 。 
e DWDW (Device Write after Device Write ) 。 外 部 设备 对 一 段 数据 进行 写 操作 后 ， 很 快 
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不 会 再 次 进行 写 操作 。 
e DWDR (Device Read after Device Write ) 。 外 部 设备 对 一 段 数 据 进 行 写 操作 后 ， 很 快 还 


会 对 这 段 数据 进行 读 操作 。 
e DRDW (Device Write after Device Read) 。 外 部 设备 对 一 段 数据 进行 读 操 作 后 ， 很 快 还 
会 对 这 段 数据 进行 写 操作 。 


e DRDR (Device Read after Device Read) 。 外 部 设备 对 一 段 数 据 进行 读 操作 后 ， 很 快 还 
会 再 次 进行 读 操作 。 
当 PH [1:0] 为 0b10 时 ,表示 TLP 中 的 数据 经 常 被 目标 设备 使 用 ， 包 括 以 下 两 种 类 
型 。 在 进行 DMA 操作 时 ，HOST 处 理 器 为 目标 设备 ， 本 节 也 以 此 为 例 说 明 PH 字段 的 使 用 
规则 。 
e DWHR (Host Read after Device Write) 。 外 部 设备 对 一 段 数据 进行 写 操 作 后 ，Host 处 
理 器 将 很 快 读 取 这 段 数据 。 
e HWDR (Device Read after Host Write) 。Host 处 理 器 对 一 段 数 据 进行 写 操作 后 ， 外 部 
设备 将 很 快 读 取 这 段 数据 。 
2. Steering Tag 
通过 上 文 对 PH 字段 的 描述 ， 可 以 发 现 PH 字段 提供 的 Processing Hint 控制 能 力 较 弱 ， 
仅 是 一 个 粗 颗粒 的 控制 机 制 。 为 此 PCIe 总 线 规范 提供 了 一 个 16 位 的 ST (Steering Tag) 字 
段 ， 目 标 设备 通过 TLP 中 的 Steering Tag 字段 可 以 获得 较为 详细 的 信息 。 
当 TH 位 有 效 时 ， 存 储 器 写 请 求 TLP 的 Tag 字段 被 重新 定义 为 ST [7:0] 字段 ， 因 为 存 
储 器 写 请 求 并 不 需要 Tag 字段 ， 而 对 于 存储 器 读 请 求 TLP，TH 位 有 效 时 DW BE 字段 被 重新 
定义 为 ST [7:0] 字段 ， 由 于 一 些 存储 器 读 请 求 TLP 仍然 需要 使 用 DW BE 字段 处 理 对 界 ， 
因此 ST 字段 只 能 应 用 于 不 需要 对 界 的 存储 器 读 请 求 TLP。 
当 TH 位 有 效 时 ,这些 “ 不 需要 对 界 ” 的 存储 器 读 请 求 TLP， 将 使 用 默认 的 DW BE 值 。 
如 果 该 存储 器 读 请 求 TLP 的 Length 字段 为 1 时 ，First DW BE 字段 的 默认 值 为 0b1111， 而 
Last DW BE 字段 的 默认 值 为 0b0000; 如 果 Length 字段 不 为 1 ，First 和 Last DW BE 的 默认 值 
都 为 0bl1111。 
TLP 还 可 以 支持 ST [15:8] 字段 ， 该 字段 是 ST 的 扩展 字段 。 如 果 一 个 TLP 需要 使 用 
ST [15:8] 字段 ， 必 须 使 用 TLP Prefix， 因 为 在 TLP 头 中 已 经 没有 足够 的 空间 放置 这 些 字 
段 。 该 TLP Prefix 也 被 称 为 TPH TLP Prefix， 其 格式 如 图 6-15 所 示 。 
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图 6-15 TPH TLP Prefix 格式 


如 上 图 所 示 ， 在 TPH TLP Prefix 的 Byte 1 中 存放 ST [15:8] 字段 。 在 PCle 总 线 中 ，ST 
[15:8] 字段 是 可 选 的 ， 实 际 上 整个 ST 字段 都 是 可 选 的 。TPH Requester Capability 结构 使 用 
ST Mode Select 字段 定义 了 ST 字段 的 三 种 使 用 模式 。 

。 当 该 字段 为 00000 时 ， 表 示 当 前 PCle 设备 不 支持 ST 字段 ， 此 时 TIP 的 ST 字段 为 
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全 0。 
e 当 该 字段 为 0b001 时 ， 表 示 ST 模式 为 “Interrupt Vector Mode”。 此 时 TLP 的 ST 字段 
由 MSIAMSI-X 的 中 断 向 量 号 确定 。 

e 当 该 字段 为 0b010 时 ， 表 示 ST 字段 由 PCIe 设备 决定 。 

PCIe 设备 可 以 根据 TLP 的 属性 ， 决 定 ST 字段 的 值 ， 为 此 在 一 个 PCIe 设备 中 ， 将 使 用 
ST 表 ， 存放 这 个 设备 使 用 的 所 有 ST 字段 。 这 个 ST 表 可 以 存放 在 TPH Requester Capability 
结构 中 ， 也 可 以 存放 在 MSI-X 表 中 。 实 际 上 ST 表 的 存放 位 置 并 不 重要 ， 只 要 PCIe 设备 能 够 
根据 发 出 的 TLP 类 型 ， 选 择 合适 的 ST 字段 即 可 。 

目前 尚 无 支持 ST 字段 的 PCIe 设备 ， 这 些 PCIe 设备 发 出 的 TLP 中 都 不 包含 ST 字段 。 而 
从 PCIe 总 线 规 范 V2. 1 中 ， 可 以 发 现 MSL/MSI-X 中 断 请 求 可 以 使 用 ST 字段 ， 当 PCIe 设备 
使 用 MSI 或 者 MSI-X 中 断 请 求 时 ， 可 以 根据 中 断 向 量 的 不 同 ， 从 ST 表 中 MSI 报 文 ? 选 择 合 
适 的 ST 字 段 ， 然 后 再 发 向 处 理 器 系统 。 处 理 器 系统 收 到 这 个 MSI 报 文 后 ， 可 以 根据 ST 字 
段 的 不 同 ， 分 别处 理 PCIe 设备 发 出 的 中 断 请 求 。 

综 上 所 述 ，ST 字段 的 主要 目的 是 细 分 TLP 的 属性 ， 处 理 器 系统 可 以 使 用 该 字段 优化 数 
据 缓冲 ， 减 小 数据 访问 延 时 。ST 字段 的 支持 需要 多 个 PCle 设备 共同 参与 。 如 EP 进行 DMA 
写 操作 时 ， 数 据 将 发 向 RC，RC 和 EP 都 需要 具有 解释 这 个 TLP 所 携带 的 ST 字段 的 能 

因此 处 理 器 系统 在 初始 化 PCIe 设备 时 ,需要 合理 地 设置 该 设备 的 ST 表 。 目 前 尚 无 支持 
TPH 位 和 ST 字段 的 PCle 设备 ， 但 是 这 种 方法 可 以 有 效 降低 PCIe 设备 访问 存储 器 ， 以 及 
PCle 设备 间 数 据 访问 的 延 时 ， 从 而 提高 PCIe 链 路 的 利用 率 。 


6.4 TLP 中 与 数据 负载 相关 的 参数 


在 PCIe 总 线 中 ， 有 些 TLP 含有 Data Payload， 如 存储 器 写 请 求 、 存 储 器 读 完成 TLP 等 。 
在 PCle 总 线 中 ，TLP 含有 的 Data Payload 大 小 与 Max_Payload_Size、Max_Read_Request_Size 
和 RCB 参数 相关 。 下 面 将 分 别 介绍 这 些 参数 的 使 用 。 


6. 4.1 Max_Payload_Size 参数 


PCIe 总 线 规定 在 TLP 报 文 中 ， 数 据 有 效 负载 的 最 大 值 为 4KB， 但 是 PCIe 设备 并 不 一 定 
能 够 发 送 这 么 大 的 数据 报 文 。PCIe 设备 含有 “Max_Payload_Size” 和 “Max_Payload_Size 
Supported” 参数 ， 这 两 个 参数 分 别 在 Device Capability 寄存 器 和 Device Control 寄存 器 中 定 
义 ， 这 两 个 寄存 髓 在 PCI Express Capability 结构 中 的 位 置 见 第 4.3.2 节 。 

“Max_Payload_Size Supported” 人 参数 存放 一 个 PCIe 设备 中 TLP 有 效 负载 的 最 大 值 ， 该 参 
数 由 PCle 设备 的 硬件 逻辑 确定 ， 系 统 软件 不 能 改写 该 参数 。 而 Max_Payload_Size 参数 存放 
PCle 设备 实际 使 用 的 TLP 有 效 负 载 的 最 大 值 。 该 参数 由 PCIe 链 路 两 端的 设备 协商 决定 ， 是 
PCle 设备 进行 数据 传送 时 实际 使 用 的 参数 。 

PCIe 设备 发 送 数据 报 文 时 ， 使 用 Max_Payload_Size 参数 决定 TLP 的 最 大 有 效 人 负载。 当 


”MSI 或 者 MSI-X 中 断 请 求 使 用 存储 器 写 请 求 TLP。 
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PCIe 设备 的 所 传送 的 数据 大 小 超过 Max_Payload_Size 参数 时 ， 这 段 数据 将 被 分 割 为 多 个 TLP 
进行 发 送 。 当 PCIe 设备 接收 TLP 时 ,该 TLP 的 最 大 有 效 负 载 也 不 能 超过 Max_Payload_Size 
人 参数， 如果 接收 的 TLP， 其 Length 字段 超过 Max_Payload_Size 参数 ， 该 PCle 设备 将 认为 该 
TLP 非法 。 

RC 或 者 EP 在 发 送 存 储 器 读 完成 TLP 时 ， 这 个 存储 器 读 完成 TLP 的 最 大 Payload 也 
不 能 超过 Max_Payload_Size 参数 ， 如 果 超 过 该 参数 ，PCIe 设备 需要 发 送 多 个 读 完 成 报 
文 。 值 得 注意 的 是 ， 这 些 读 完成 报 文 需 要 满足 RCB 参数 的 要 求 ， 有 关 RCB 参数 的 详细 
说 明 见 下 文 。 

在 实际 应 用 中 ,尽管 有 些 PCle 设备 的 Max_Payload_Size Supported 参数 可 以 为 256 B、 
512 B、1024 B 或 者 更 高 ， 但 是 如 果 PCle 链 路 的 对 端 设备 可 以 支持 的 Max_Payload_Size 参数 
为 128 B 时 ， 系 统 软件 将 使 用 对 端 设 备 的 Max_Payload_Size Supported 人 参数， 初始 化 该 设备 的 
Max_Payload_Size 参数 ， 即 选用 PCIe 链 路 两 端 最 小 的 Max_Payload_Size Supported 参数 初始 化 
Max_Payload_Size 参数 。 

在 多 数 x86 处 理 器 系统 的 MCH 或 者 ICH 中 ，Max_Payload_Size Supported 参数 为 128 B。 
这 也 意味 着 在 x86 处 理 器 中 ,与 MCH 或 者 ICH 直接 相连 的 PCle 设备 进行 DMA 读 写 时 ， 数 
据 的 有 效 负载 不 能 超过 128 B， 同 时 读 完成 携带 的 Payload 也 不 能 超过 128 B。 而 在 PowerPC 
处 理 器 系统 中 ， 该 参数 大 多 为 256 B。 

日 前 在 大 多 数 EP 中 ，Max_Payload_Size Supported 参数 不 大 于 512 B， 因 为 在 大 多 数 处 理 
兢 系 统 的 RC 中 ，Max_Payload_Size Supported 参数 也 不 大 于 512 B。 因 此 即便 EP 支持 较 大 的 
Max_Payload_Size Supported 参数 ， 并 不 会 提高 数据 传送 效率 。 

而 Max_Payload_Size 参数 的 大 小 与 PCIe 链 路 的 传送 效率 成 正比 ， 该 参数 越 大 ，PCIe 链 
路 带宽 的 利用 率 越 高 ， 该 参数 越 小 ，PCIe 链 路 带宽 的 利用 率 越 低 。 

PCIe 总 线 规范 规定 ， 对 于 实时 性 要 求 较 高 的 PCIe 设备 ，Max_Payload_Size 参数 不 应 设 
置 过 大 ， 因 此 这 个 参数 有 时 会 低 于 PCIe 链 路 允许 使 用 的 最 大 值 。 


6. 4.2 Max_Read_ Request_Size 参数 


Max_Read_Request_Size 参数 由 PCle 设备 决定 ， 该 参数 规定 了 PCIe 设备 一 次 能 从 目标 设 
备 读 取 多 少数 据 。 

Max_Read_Request_Size 参数 在 Device Control 寄存 器 中 定义 ， 详 见 第 4.3.2 节 。 该 
参数 与 存储 器 读 请 求 TLP 的 Length 字段 相关 ， 其 中 Length 字段 不 能 大 于 Max_Read_Re- 
quest_Size 参数 。 在 存储 器 读 请 求 TLP 中 ， Length 字段 表示 需要 从 目标 设 备 读 取 多 少 
数据 。 

值得 注意 的 是 ，Max_Read_Request_Size 参数 与 Max_Payload_Size 参数 间 没 有 直接 联系 ， 
Max_Payload_Size 参数 仅 与 存储 器 写 请 求 和 存储 器 读 完成 报 文 相 关 。 

PCIe 总 线 规定 存储 器 读 请 求 ， 其 读 取 的 数据 长 度 不 能 超过 Max_Read_Request_Size 参 
数 ， 即 存储 器 读 TLP 中 的 Length 字段 不 能 大 于 这 个 参数 。 如 果 一 次 存储 器 读 操作 需要 读 取 
的 数据 范围 大 于 Max_Read_Request_Size 参数 时 ， 该 PCIe 设备 需要 向 目标 设备 发 送 多 个 存储 
器 读 请 求 TLP。 

PCIe 总 线 规定 Max_Read_Request_Size 参数 的 最 大 值 为 4 KB ， 但 是 系统 软件 需要 根据 硬 
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件 特性 决定 该 参数 的 值 。 因 为 PCIe 总 线 规定 EP 在 进行 存储 器 读 请 求 时 ， 需 要 具有 足够 大 的 
缓冲 接收 来 自 目标 设备 的 数据 。 

如 果 一 个 EP 的 Max_Read_Request_Size 参数 被 设置 为 4KB， 而 且 这 个 EP 每 发 出 一 个 4 
KB 大 小 存储 器 读 请 求 时 ，EP 都 需要 准备 一 个 4 KB 大 小 的 缓冲 ?。 这 对 于 绝 大 多 数 EP 都 是 
一 个 相当 苛刻 的 条 件 。 为 此 在 实际 设计 中 ， 一 个 EP 会 对 Max_Read_Request_Size 参数 的 大 
小 进行 限制 。 


6.4.3 RCB 参数 


RCB 位 在 Link Control 寄存 器 中 定义 ， 见 第 4. 3. 2 节 。RCB 位 决定 了 RCB 参数 的 值 ， 
在 PCle 总 线 中 ，RCB 参数 的 大 小 为 64 B 或 者 128 B， 如 果 一 个 PCIe 设备 没有 设置 RCB 
的 大 小 ?3， 则 RC 的 RCB 参数 缺 省 值 为 64 B， 而 其 他 PCIe 设备 的 RCB 参数 的 缺 省 值 为 
128 B。PCIe 总 线 规定 RC 的 RCB 参数 的 值 为 64 B 或 者 128 B， 其 他 PCle 设备 的 RCB 参 
数 为 128 B。 

在 PCIe 总 线 中 ， 一 个 存储 器 读 请 求 TLP 可 能 收 到 目标 设备 发 出 的 多 个 完成 报 文 后 ， 
才能 完成 一 次 存储 器 读 操 作 。 因 为 在 PCIe 总 线 中 ， 一 个 存储 器 读 请 求 最 多 可 以 请 求 
4KB 大 小 的 数据 报 文 ， 而 目标 设备 可 能 会 使 用 多 个 存储 器 读 完成 TLP 才能 将 数据 传递 


er 
完毕 。 


当 一 个 EP 向 RC 或 者 其 他 EP 读 取 数 据 时 ， 这 个 EP 首先 向 RC 或 者 其 他 EP 发 送 存储 器 
读 请 求 TLP; 之 后 由 RC 或 者 其 他 EP 发 送 存储 器 读 完成 TLP， 将 数据 传递 给 这 个 EP。 

如 果 存 储 器 读 完成 报 文 所 传递 数据 的 地 址 范围 没有 跨越 RCB 参数 的 边界 ， 那 么 数据 发 
送 端 只 能 使 用 一 个 存储 器 完成 报 文 将 数据 传递 给 请 求 方 ， 否 则 可 以 使 用 多 个 存储 器 读 完 
成 TLP。 

假定 一 个 EP 向 地 址 范围 为 0xFFFF- 0000 ~ 0xFFFF- 0010 的 这 段 区 域 进行 DMA 读 操 作 ， 
RC 收 到 这 个 存储 器 读 请 求 TLP 后 ， 将 组 织 存储 器 读 完成 TLP， 由 于 这 段 区 域 并 没有 跨越 
RCB 边界 ， 因 此 RC 只 能 使 用 一 个 存储 器 读 完成 TLP 完成 数据 传递 。 

如 果 存 储 器 读 完成 报 文 所 传递 数据 的 地 址 范围 跨越 了 RCB 边界 ， 那 么 数据 发 送 端 〈 目 
标 设 备 ) 可 以 使 用 一 个 或 者 多 个 完成 报 文 进行 数据 传递 。 数 据 发 送 端 使 用 多 个 存储 器 读 完 
成 报 文 完成 数据 传递 时 ， 需 要 遵循 以 下 原则 。 

。 第 一 个 完成 报 文 所 传送 的 数据 ， 其 起 始 地 址 与 要 求 的 起 始 地 址 相同 。 其 结束 地 址 或 者 

为 要 求 的 结束 地 址 (使 用 一 个 完成 报 文 传递 所 有 数据 )， 或 者 为 RCB 参数 的 整数 倍 
(使 用 多 个 完成 报 文 传递 数据 ) 。 

。 最 后 一 个 完成 报 文 的 起 始 地 址 或 者 为 要 求 的 起 始 地 址 (使 用 一 个 完成 报 文 传递 所 有 数 
据 ) ， 或 者 为 RCB 参数 的 整数 倍 (使 用 多 个 完成 报 文 传递 数据 ) 。 其 结束 地 址 必须 为 
要 求 的 结束 地 址 。 

e 中 间 的 完成 报 文 的 起 始 地 址 和 结束 地 址 必须 为 RCB 参数 的 整数 倍 。 

当 RC 或 者 EP 需要 使 用 多 个 存储 器 读 完成 报 文 将 0xFFFE-FFFO0 ~ 0xFFFF-00C7 之 间 的 
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数据 发 送 给 数据 请 求 方 时 ， 可 以 将 这 些 完 成 报 文 按照 表 6-9 方式 组 织 。 
表 6-9 存储 器 读 完 成 报 文 的 拆 分 方法 


方式 1 方式 2 方式 3 
OxFFFE-FFFO ~ OxFFFE-FFFF OxFFFE-FFFO ~ OxFFFE-FFFF OxFFFE-FFFO ~ OxFFFE-FFFF 
OxFFFF-0000 ~ OxFFFF-003F OxFFFF-0000 ~ OxFFFF-007F OxFFFF-0000 ~ OxFFFF-00C7 
OxFFFF-0040 ~ OxFFFF-007F OxFFFF-0080 ~ OxFFFF-00C7 


OxFFFF-0080 ~ OxFFFF-O00BF 


OxFFFF-00C0 ~OxFFFF-00C7 


上 表 提 供 的 方式 仅 供 参考 ， 目 标 设备 还 可 以 使 用 其 他 拆 分 方法 发 送 存储 器 读 完成 TLP。 
PCle 总 线 使 用 多 个 完成 报 文 实现 一 次 数据 读 请 求 的 主要 原因 是 考虑 Cache 行 长 度 和 流量 控 
制 。 在 多 数 x86 处 理 带 系统 中 ， 存 储 带 读 完成 报 文 的 数据 长 度 为 一 个 Cache 行 ， 即 一 次 传送 
64 B。 除 此 之 外 ， 较 短 的 数据 完成 报 文 占 用 流量 控制 的 资源 较 少 ， 而 且 可 以 有 效 避 人 免 数 据 拥 
塞 。 有 关 流 量 控制 的 内 容 详 见 第 9 章 。 


6.5 小 结 
本 音 重 点 介绍 PCle 总 线 的 事务 层 。 在 PCle 总 线 层 次 结构 中 ， 事 务 层 最 易 理 解 ， 同 时 也 


与 系统 软件 直接 相关 。 但 是 事务 层 的 知识 较为 琐碎 ， 在 第 12 章 将 结合 一 个 EP 的 设计 实例 ， 
进一步 说 明 PCle 总 线 事务 层 的 具体 实现 机 制 。 
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第 7 章 PCIe 总 线 的 数据 链 路 层 与 物理 层 


PCle 总 线 的 数据 链 路 层 处 于 事务 层 和 物理 层 之 间 ， 主 要 功能 是 保证 来 自 事务 层 的 TLP 
在 PCIe 链 路 中 的 正确 传递 ， 为 此 数据 链 路 层 定 义 了 一 系列 数据 链 路 层 报 文 ， 即 DLLP。 数 据 
链 路 层 使 用 了 容错 和 重 传 机 制 保证 数据 传送 的 完整 性 与 一 致 性 ， 此 外 数据 链 路 层 还 需要 对 
PCIe 链 路 进行 管理 与 监控 。 数 据 链 路 层 将 从 物理 层 中 获得 报 文 ， 并 将 其 传递 给 事务 层 ; 同 
时 接收 事务 层 的 报 文 ， 并 将 其 转发 到 物理 层 。 

与 事务 层 不 同 ， 数 据 链 路 层 主要 处 理 端 到 端的 数据 传送 。 在 事务 层 中 ， 源 设备 与 目标 设 
备 间 的 传送 距离 较 长 ， 设 备 之 间 可 能 经 过 若干 级 Switch; 而 在 数据 链 路 层 中 ， 源 设备 与 目标 
设备 在 一 条 PCIe 链 路 的 两 端 。 因 此 本 章 在 描述 数据 链 路 层 时 ， 将 使 用 发 送 端 与 接收 端的 概 
A 而 不 再 使 用 源 设备 与 目标 设备 

物理 层 是 PCIe 总 线 的 最 底层 ， 也 是 PCIe 总 线 体 系 结构 的 核心 。 在 物理 层 中 涉及 许多 与 

差分 信号 传递 有 关 的 模拟 电路 知识 。PCIe 总 线 的 物理 层 由 逻辑 层 和 电气 层 组 成 ， 其 中 电气 
层 更 为 重要 。 在 PCIe 总 线 的 物理 层 中 ， 使 用 LTSSM 状态 机 维护 PCIe 链 路 的 正常 运转 ， 该 
状态 机 的 迁移 过 程 较为 复杂 ， 在 第 8 章 将 详细 介绍 该 状态 机 。 


7.1 数据 链 路 层 的 组 成 结构 


数据 链 路 层 使 用 ACKZNAK 协议 发 送 和 接收 TLP， 由 发 送 部 件 和 接收 部 件 组 成 。 其 中 发 
送 部 件 由 Replay Buffer、ACKZNAK DLLP 接收 逻辑 和 TLP 发 送 逻 辑 组 成 ; 而 接收 部 件 由 
“Error Check” 罗 辑 、ACKZNAK 发 送 逻 辑 和 TLP 接收 逻辑 组 成 。 数 据 链 路 层 的 拓扑 结构 如 
图 7-1 所 示 。 在 该 图 中 含有 两 个 PCIe 设备 ,分 别 为 Device A 和 Device B， 使 用 的 PCIe 链 路 
为 Device A 的 发 送 链 路 ， 同 时 也 为 Device B 的 接收 链 路 。 


F 工 了 Transmit Receiver 
FON ee ion, Device A Device B To Transaction 


TLP 


Replay 
.| Buffer 


图 7-1 数据 链 路 层 的 拓扑 结构 


实际 上 每 个 PCIe 设备 的 数据 链 路 层 都 含有 发 送 部 件 和 接收 部 件 。 而 上 图 为 简化 起 见 ， 
仅 含 有 Device A 的 发 送 部 件 和 Device B 的 接收 部 件 ， 即 Device A 发 送 链 路 两 端 使 用 的 两 个 
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部 件 。Device A 和 Device B 也 具有 接收 部 件 和 发 送 部 件 ， 这 两 个 部 件 由 Device B 的 发 送 链 路 
使 用 ，Device B 发 送 链 路 的 工作 原理 与 Device A 类 似 ， 本 节 对 此 不 做 详细 介绍 。 

当 PCle 设备 进行 数据 传递 时 ， 首 先 在 事务 层 中 产生 TLP， 然 后 通过 事务 层 将 这 个 TLP 
发 送 给 数据 链 路 层 ， 数 据 链 路 层 将 这 个 TLP 加 上 Sequence 前 级 和 LCRC 后 缀 后 ， 首 先 将 这 
个 TLP 放 入 到 Replay Buffer 中 ， 然 后 再 发 送 到 物理 层 。 

目标 设备 〈Device B) 从 物理 层 接收 TLP 时 ， 将 首先 获得 带 前 后 缀 的 TLP， 该 TLP 经 过 
数据 链 路 层 传递 给 事务 层 时 ， 将 被 去 掉 Sequence 前 级 和 LCRC 后 级 。 在 数据 链 路 层 中 ，TLP 
的 格式 如 图 7-2 所 示 。 


TLP Head Data Payload TLP Digest(Optional) LCRC 
一 


前 级 TIP 四 
图 7-2 数据 链 路 层 TLP 的 格式 

数据 链 路 层 使 用 ACKANAK 协议 保证 TLP 的 正确 传送 ，ACK/NAK 协议 是 一 种 滑动 窗口 
协议 ， 该 协议 的 详细 介绍 见 第 7. 2 节 。 其 中 Sequence 前 级 存放 当前 TLP 的 序列 号 ， 滑 动 窗 
口 协议 需要 使 用 这 个 序列 号 。 该 序列 号 可 以 循环 使 用 ， 但 在 同一 个 时 间 段 内 ， 一 条 PCIe 链 
路 不 能 含有 Sequence 前 级 相同 的 多 个 TLP。 而 LCRC 后 缀 存放 当前 TLP 的 校 验 和 。 

PCIe 总 线 的 数据 链 路 层 使 用 Replay Buffer2 和 Error Check 部 件 共同 保证 数据 传送 的 可 靠 
性 和 完整 性 。 来 自 事务 层 的 TLP 首先 暂 存 在 Replay Buffer 中 ， 然 后 发 送 到 目标 设备 。 源 设备 
的 数据 链 路 层 根 据 来 自 目标 设备 的 ACKZNAK DLLP 报 文 决 定 是 重 发 这 些 TLP， 还 是 清除 保 
存在 Replay Buffer 中 的 TLP。 

Replay Buffer 的 大 小 决定 了 事务 层 可 以 暂 存 在 数据 链 路 层 的 报 文 数 ，Replay Buffer 的 容 
量 越 大 ， 在 PCIe 设备 发 送 流水 线 中 容纳 的 报 文 越 多 ， 从 而 也 容易 保证 流水 线 不 会 因为 发 送 
部 件 出 现 underrun 而 中 断 ， 但 是 Replay Buffer 的 容量 越 大 ， 占 用 的 系统 资源 也 越 多 ， 从 而 影 
响 PCIe 设备 的 功 耗 。 在 一 个 实际 应 用 中 ， 芯 片 设计 者 需要 根据 PCIe 链 路 的 延 时 确定 数据 链 
路 层 Replay Buffer 的 大 小 ， 在 第 12. 4. 1 节 中 将 进一步 介绍 Replay Buffer 的 大 小 与 PCIe 链 路 
延 时 间 的 关系 。 

在 PCIe 设备 的 数据 链 路 层 中 5 还 含有 一 个 Error Check 单元 。PCIe 设备 使 用 Error Check 
单元 检查 接收 到 的 TLP， 并 决定 如 何 向 对 端 设 备 进行 报 文 回应 。 如 果 TLP 被 正确 接收 ，PCIe 
设备 将 向 对 端 设备 发 送 ACK DLLP?; 如 果 TLP 没有 被 正确 接收 ，PCIe 设备 将 向 对 端 设备 发 
送 NAK DLLP。 

除了 ACK/NAK DLLP 之 外 ， 数 据 链 路 层 还 定义 了 一 系列 数据 链 路 层 报 文 DLLP， 以 保证 
PCIe 链 路 的 正常 工作 。 这 些 DLLP 都 产生 于 数据 链 路 层 ， 并 终止 于 数据 链 路 层 ， 并 不 会 传送 
到 事务 层 。 有 关 DLLP 格式 的 详细 描述 见 第 7.1.3 节 。 


7.1.1 数据 链 路 层 的 状态 
数据 链 路 层 需 要 通过 物理 层 监 控 PCIe 链 路 的 状态 ， 并 维护 数据 链 路 层 的 “控制 与 管理 


加 PCIe 规范 将 这 个 Replay Buffer 称 为 Retry Buffer。 
”数据 链 路 层 为 提高 PCIe 链 路 的 利用 率 ， 并 不 会 每 成 功 接收 一 个 TLP 后 ， 都 发 送 一 个 ACK DLLP。 
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状态 机 ”(Data Link Control and Management State Machine，DLCMSM) 。DLCMSM 状态 机 可 以 
从 物理 层 获 得 以 下 与 当前 PCIe 链 路 相关 的 状态 。 
e DL_Inactive 状态 。 物 理 层 通知 数据 链 路 层 当 前 PCIe 链 路 不 可 用 。 在 当前 PCIe 链 路 的 
对 端 没 有 连接 任何 PCIe 设备 ， 或 者 没有 检测 到 对 端 设 备 的 存在 时 ， 数 据 链 路 层 处 于 
该 状态 。 
e DL_Init 状态 。 物 理 层 通知 数据 链 路 层 当 前 PCIe 链 路 可 用 ， 且 物理 层 正 处 于 链 路 初始 
化 状态 ， 此 时 数据 链 路 层 不 能 接收 或 者 发 送 TLP 和 DLLP。 此 时 PCIe 链 路 首先 需要 初 
始 化 VC0 的 流量 控制 机 制 ， 然 后 再 对 其 他 虚 通 路 进行 流量 控制 的 初始 化 。 有 关 流 量 
控制 的 详细 描述 见 第 9 章 。 
e DL_Active 状态 。 当 前 PCIe 链 路 处 于 正常 工作 模式 。 此 时 物理 层 已 完成 PCIe 链 路 训 
练 或 者 重 训 练 。 有 关 链 路 训练 的 详细 描述 见 第 8 草 。 
DLCMSM 状态 机 的 迁移 模型 如 图 7-3 所 示 。 
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图 7-3” DLCMSM 的 状态 机 模型 


DLCMSM 状态 机 除了 可 以 使 用 上 述 状 态 位 ， 从 物理 层 获 得 当前 PCIe 链 路 状态 外 ， 还 可 
以 使 用 以 下 状态 位 ， 向 事务 层 通 知 数据 链 路 层 所 处 的 状态 。 事 务 层 通过 这 些 状态 位 获知 数据 
链 路 层 所 处 的 工作 状态 。 

e DL_Down。 数 据 链 路 层 处 于 该 状态 时 ， 表 示 在 PCIe 链 路 的 对 端 没 有 发 现 其 他 设备 。 

当 数 据 链 路 层 处 于 DL_Inactive 状态 时 ， 该 状态 位 有 效 。 值 得 注意 的 是 DL_Down 有 效 
时 ， 并 不 意味 着 对 端 不 存在 物理 设备 。 数 据 链 路 层 仅 是 使 用 该 状态 位 通知 事务 层 ， 暂 
时 没有 从 对 端 中 发 现 PCIe 设备 ， 需 要 进一步 检测 。 

e DL_Up。 数 据 链 路 层 处 于 该 状态 表示 在 PCIe 链 路 的 对 端 连 接 了 其 他 设备 。 当 数据 链 

路 层 处 于 DL_Active 状态 时 ， 该 状态 位 有 效 。 

当 数 据 链 路 层 收 到 物理 层 的 状态 信息 后 ，DLCMSM 状态 机 将 进行 状态 转换 ， 并 向 事务 
层 通 知 PCIe 链 路 的 状态 。 如 果 在 PCIe 链 路 的 两 端 都 连接 着 PCIe 设备 ， 那 么 这 两 个 PCle 设 
备 的 数据 链 路 层 ， 在 绝 大 多 数 时 间 内 状态 相同 。 数 据 链 路 层 各 个 状态 的 详细 说 明 ， 及 PCIe 
链 路 的 状态 迁移 过 程 如 下 。 

1，DL_lInactive 状态 

当 PCIe 设备 复位 时 ， 将 进入 该 状态 。 值 得 注意 的 是 ， 只 有 传统 复位 方式 才能 使 PCIe 设 
备 进 入 DL_Inactive 状态 ， 而 FLR 方式 并 不 会 影响 DLCMSM 状态 机 。 

当 PCIe 设备 从 复位 状态 进入 DL_Inactive 状态 时 ， 将 对 PCIe 数据 链 路 层 进行 彻底 复位 ， 
将 与 PCle 链 路 相关 的 寄存 器 置 为 复位 值 ， 并 丢弃 在 Replay Buffer 中 保存 的 所 有 报 文 。 当 
PCIe 设备 处 于 DL_Inactive 状态 时 ， 数 据 链 路 层 将 向 事务 层 提 交 DL_Down 状态 信息 ， 并 丢弃 
来 自 数据 链 路 层 和 物理 层 的 所 有 TLP， 而 且 不 接收 对 端 设备 发 送 的 DLLP。 

PCIe 设备 的 物理 层 设置 了 一 个 LinkUp 位 ， 该 位 为 1 时 表示 PCIe 链 路 的 对 端 与 一 个 PCIe 
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设备 相连 。 当 物理 层 的 LinkUp 状态 位 为 1， 而 且 事务 层 没有 禁用 当前 PCIe 链 路 时 ，PCIe 数 
据 链 路 层 将 从 DL_Inactive 状态 迁移 到 DL_Init 状态 。 
PCIe 设备 在 进行 链 路 训练 时 ， 将 检查 PCle 链 路 的 对 端 是 否 存在 PCIe 设备 ， 如 果 对 端 不 
存在 PCle 设备 ， 物 理 层 的 LinkUp 位 将 为 0， 此 时 数据 链 路 层 将 一 直 处 于 DL_ Inactive 状态 。 
系统 软件 可 以 设置 Switch 下 游 端 口 Link Control 寄存 器 的 “Link Disable” 位 为 1， 禁 用 该 端 
口 连接 的 PCle 链 路 ， 此 时 即便 PCle 链 路 对 端 存在 PCle 设备 ， 数 据 链 路 层 的 状态 也 仍然 为 
DL_Inactive。 
2，DL_Init 状态 
当 数据 链 路 层 处 于 DL_Init 状态 时 ， 将 对 PCIe 链 路 的 虚 通道 VC0 进行 流量 控制 初始 化 。 
在 PCle 总 线 中 ， 流 量 控制 的 初始 化 分 为 两 个 阶段 ， 分 别 为 FC_INITI 和 FC_INIT2。 在 流量 控 
制 的 FC_INITI 阶段 ,数据 链 路 层 将 向 事务 层 提交 DL_Down 状态 信息 ; 而 在 流量 控制 的 FC_ 
INIT2 阶段 , 数据 链 路 层 将 向 事务 层 提 交 DL_Up 状态 信息 。 流量 控制 的 初始 化 部 分 详 见 第 
9.3.3 节 。 
当 PCle 链 路 处 于 DL_Down 状态 时 ， 发 送 端 可 以 丢弃 任何 没有 被 ACKANAK 确认 的 TLP， 
此 时 数据 链 路 层 几乎 不 会 受到 事务 层 的 干扰 ， 从 而 可 以 保证 流量 控制 初始 化 的 正常 进行 。 这 
也 是 PCIe 链 路 的 流量 控制 分 为 FC_INITI 和 FC_INIT2 的 主要 原因 。 
当 VC0 的 流量 控制 初始 化 完毕 ， 而 且 物 理 层 的 LinkUp 状态 位 为 0bl 时 ， 数 据 链 路 层 将 
从 DL_Init 状态 迁移 到 DL_Active 状态 ; 如 果 在 进行 流量 控制 初始 化 时 ， 物 理 层 的 LinkUp 状 
态 位 被 更 改 为 0b0 时 ， 数 据 链 路 层 将 从 DL_Init 状态 迁移 到 DL_Inactive 状态 。 
3，DL_Active 状态 
当 数据 链 路 层 处 于 DL_Active 状态 时 ，PCIe 链 路 可 以 正常 工作 ， 此 时 数据 链 路 层 可 以 从 
事务 层 和 物理 层 正常 接收 和 发 送 TLP， 并 处 理 DLLP， 此 时 数据 链 路 层 向 事务 层 提交 DL_Up 
状态 信息 。 
当 发 生 以 下 事件 后 ， 数 据 链 路 层 可 以 从 DL_Active 状态 迁移 到 DL_Inactive 状态 , 但 是 不 
能 迁移 到 DL_Init 状态 。 这 也 意味 着 数据 链 路 层 从 DL_Active 状态 迁移 出 去 后 , 必须 重新 进行 
对 端 设 备 的 识别 和 流量 控制 初始 化 , 之 后 才能 进入 DL_Active 状态 。 
在 多 数 情况 下 ， 数 据 链 路 层 从 DL_Active 状态 迁移 到 DL_Inactive 状态 时 ， 意 味 着 处 理 需 
系统 出 现 了 异常 ， 系 统 软件 需要 处 理 这 些 异 常 。 但 是 在 下 列 情况 时 ， 数 据 链 路 层 状态 从 DL_ 
Active 状态 迁移 到 DL_Inactive 状态 时 并 不 会 引发 异常 。 
e Bridge Control Register 的 Secondary Bus Reset 位 被 系统 软件 置 为 1 时 ， 数 据 链 路 层 将 迁 
移 到 DL_Inactive 状态 。 

e Link Disable 位 被 系统 软件 置 为 1 时 ， 数 据 链 路 层 迁移 到 DL_Inactive 状态 。 

e 当 一 个 PCIe 端口 向 对 端 设 备 发 送 “PME_Turn_0Off” 消息 之 后 ， 其 数据 链 路 层 经 过 一 段 
时 间 ， 可 以 迁移 到 DL_Inactive 状态 。RC 和 Switch 在 进入 低 功 耗 状 态 之 前 ， 将 向 其 下 
游 端 口 广播 PME_Turn_0Off 消息 ， 下 游 PCIe 设备 收 到 该 消息 后 ， 将 向 RC 和 Switch 发 
出 PME_TO_Ack 回应 。 当 RC 和 Switch 的 下 游 端 口 收 到 这 个 回应 报 文 后 ， 数 据 链 路 层 
可 以 迁移 到 DL_Inactive 状态 。 

e 如 果 PCIle 链 路 连接 了 一 个 支持 “ 热 插 拔 ”功能 的 PCIe 插 槽 ， 而 当 这 个 搬 槽 的 Slot 
Capability 寄存 硕 的 “Hot Plug Surprise” 位 为 1 时 ， 数 据 链 路 层 将 迁移 到 DL_Inactive 
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状态 。 
e 如 果 PCIe 链 路 连接 一 个 热 插 拔 插 模 ， 当 这 个 插 横 的 Slot Control 寄存 器 的 “Power Con- 
troller Control” 位 为 1 时 ， 数 据 链 路 层 也 将 迁移 到 DL_Inactive 状态 。 
在 PCle 总 线 中 ， 还 有 一 些 系统 事件 也 可 以 引发 数据 链 路 层 的 状态 转换 ， 本 书 对 此 不 进 
行 一 一 描述 。 


7.1.2 事务 层 如 何 处 理 DL_Down 和 DL_Up 状态 


当 事 务 层 收 到 数据 链 路 层 的 DL_Down 状态 信息 时 ， 表 示 出 现 了 以 下 情况 。 

。 PCIe 链 路 的 对 端 没有 连接 设备 。 

e PCIe 链 路 丢失 了 与 对 端 设 备 的 连接 。 

e 数据 链 路 层 和 物理 层 出 现 某 种 错误 ，PCIe 链 路 不 能 正常 工作 。 

。 系统 软件 禁用 PCle 链 路 。 

当 事 务 层 收 到 DL_Down 状态 信息 后 ， 将 不 再 从 数据 链 路 层 中 接收 TLP， 除 非 是 数据 链 
路 层 已 经 使 用 ACKANAK 报 文 确认 过 的 TLP。 这 些 被 确认 过 的 TLP 已 经 被 数据 链 路 层 接收 完 
毕 ， 因 此 事务 层 可 以 接收 这 些 TLP。 

当 链 路 处 于 DL_Down 状态 时 ，RC 或 者 Switch 的 下 游 端 口 将 复位 与 链 路 相关 的 内 部 逻 
辑 和 状态 。 此 时 下 游 端 口 收 到 上 游 端 口 的 Non-Posted 请 求 TLP 后 ， 并 不 会 将 这 个 TLP 转 
发 到 数据 链 路 层 ， 为 数据 链 路 层 已 经 出 现 故 障 ， 而 组 织 状 态 位 为 UR ( Unsupported 
Request) 的 完成 报 文 ， 通 知 上 游 端 口 无 法 发 送 这 个 Non-Posted 数据 请 求 ， 该 事务 层 将 丢 
弃 这 个 Non-Posted 请 求 TLP; 此 外 该 事务 层 还 将 丢弃 来 自 上 游 端 口 的 Posted 请 求 TLP 和 完 
成 报 文 。 当 链 路 为 DL_Down 状态 时 ，RC 或 者 Switch 的 下 游 喘 口 还 必须 结束 “PME Turn_ 
0ff” 握 手 请 求 。 

当 链 路 为 DL_Down 状态 时 ，Switch 和 PCIe 桥 的 上 游 端口 ， 将 复位 相关 的 内 部 逻辑 和 状 
态 ， 并 丢弃 所 有 正在 处 理 的 TLP。 此 时 Switch 和 PCIe 桥 将 使 用 Hot Reset 方式 复位 所 有 下 游 
端口 。 

事务 层 处 于 DL_Up 状态 时 ， 表 示 该 设备 与 PCIe 链 路 的 对 端 设 备 已 经 建立 连接 ， 链 
路 两 端 可 以 正常 收发 报 文 。 当 事务 层 发 现 PCIe 链 路 从 DL_Down 迁移 到 DL_Up 状态 时 ， 
将 向 PCIe 链 路 的 对 端 设 备 重新 发 送 Set_Slot_Power_Limit 消息 ， 并 重新 初始 化 相关 的 寄 
存 髓 。 


7.1.3 DLLP 的 格式 


DLLP 与 TLP 的 概念 并 不 相同 ，DLLP 产生 于 数据 链 路 层 ， 终 止 于 数据 链 路 层 ， 这 些 报 
文 不 会 出 现在 事务 层 中 ， 而 且 对 系统 软件 透明 。 设 置 DLLP 的 目的 是 为 了 保证 TLP 的 正确 传 
送 和 管理 PCIe 链 路 。 

值得 注意 的 是 ，DLLP 并 不 是 由 TLP 加 上 Sequence 前 级 和 LCRC 后 绥 组 成 的 ， 而 具有 单 
独 的 格式 。 一 个 DLLP 由 6 个 字 节 组 成 ， 其 中 第 1 个 字 节 存放 DLLP 的 类 型 ， 第 2 ~4 个 字 节 
存放 的 数据 与 DLLP 类 型 相关 ， 而 最 后 两 个 字 节 存放 当前 DLLP 的 CRC 校 验 。DLLP 的 格式 
如 图 7-4 所 示 。 
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Byte 0 


Byte 4 


DLLP Type 与 DLLP Type 字段 相关 
16 Bit CRC 


图 7-4 DLLP 的 格式 


大 多 数 DLLP 由 PCIe 设备 自动 产生 ， 而 与 事务 层 没 有 直接 联系 。PCle 总 线 定义 了 以 下 


几 类 DLLP 报 文 ， 如 表 7-1 所 示 。 
表 7-1 DLLP 的 编码 
Type 字段 DLLP 类 型 
0000-0000 Ack 
0001-0000 Nak 
0010-0000 PM_Enter_L1 
0010-0001 PM_Enter_L23 
0010-0011 PM_Active_State_Request_L1l 
0010-0100 PM_Request_Ack 
0011-0000 Vendor Specific-Not used in normal operation 
0100-0V,ViVo InitFC1-P, 其 中 V[2:0] 由 三 位 组 成 ,因为 一 条 PCIe 链 路 最 多 支持 8 个 VC 
0101-0V, ViVo InitFC1-NP 
0110-0V, ViVo InitFC1-Cpl 
1100-0V, ViVo InitFC2-P 
1101-0V, ViVo InitFC2-NP 
1110-0V, ViVo InitFC2-Cpl 
1000-0V, ViVo UpdateFC-P 
1001-0V, ViVo UpdateFC-NP 
1010-0V, ViVo UpdateFC-Cpl 
这 些 DLLP 报 文 的 描述 如 下 。 
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e ACK DLLP。 该 DLLP 由 接收 端 发 问 发 送 端 。 接 收 端 收 到 TLP 报 文 后 ， 将 根据 数据 链 
路 层 的 冰 值 设置 ， 向 对 端 设 备 发 送 ACK DLLP， 而 不 是 每 接收 到 一 个 TLP， 都 向 对 端 
发 送 一 个 ACK DLLP。 该 DLLP 表示 接收 端正 确 收 到 来 自 对 端的 TLP。 

e NAK DLLP。 该 DLLP 由 接收 端 发 向 发 送 端 。 该 DLLP 表示 接收 端 有 哪些 TLP 没有 被 正 
确 接收 ， 发 送 端 收 到 NAK DLLP 后 ， 将 重 传 没 有 被 正确 接收 的 TLP， 同 时 释放 已 经 被 
正确 接收 的 TLP。ACK 和 NAK DLLP 与 ACK/NAK 协议 相关 ， 是 数据 链 路 层 的 两 个 重 
要 DLLP。 这 两 个 DLLP 的 详细 作用 如 第 7. 2 节 所 述 。 

e Power Management DLLPs。PCIe 设备 使 用 该 组 DLLP 进行 电源 管理 ， 并 向 对 端 设备 通 
知 当 前 PCIe 链 路 的 状态 。PCle 总 线 还 定义 了 一 组 与 电源 管理 相关 的 TLP， 这 些 TLP 


与 这 组 DLLPs 有 一 定 的 联系 ， 但 是 其 作用 并 不 相同 。PCIe 总 线 使 用 该 组 DLLP 保证 电 
源 管理 状态 机 的 正确 运行 。 
e Flow Control Packet DLLPs。 该 组 DLLP 包括 InitFC1 、InitFC2 、UpdateFC DLLP，PCIe 
总 线 使 用 这 些 DLLPs 进行 流量 控制 。 在 PCIe 总 线 中 ， 数 据 传 送 由 三 大 类 组 成 ， 分 别 
为 Posted 、Non-Posted 和 Completion 。 这 三 种 数据 传送 方式 有 些 细微 区 别 ，PCIe 设备 
为 这 三 种 数据 传送 设置 了 不 同 的 数据 缓冲 。 流 量 控 制 是 PCIe 总 线 的 一 个 重要 特性 ， 
第 9 章 将 重点 介绍 这 些 内 容 。 
e Vendor-specific DLLP。 一 些 定制 的 DLLP，PCIle 总 线 规范 并 未 对 此 约束 。 这 些 DLLP 由 
用 户 自 定义 使 用 。 
本 节 将 重点 介绍 ACKZNAK DLLP， 这 两 个 DLLP 与 PCIe 总 线 的 ACK/NAK 协议 直接 相 
关 。 在 PCIe 总 线 中 ， 数 据 链 路 层 使 用 ACKZNAK 协议 保证 TLP 的 可 靠 传送 。ACK/NAK 
DLLP 的 格式 如 图 7-5 所 示 。 


Byte 0 


De ee | es Ee ee 


16 Bit CRC 


Byte 4 


图 7-5 ACK/NAK DLLP 


ACK/NAK DLLP 各 字段 的 详细 说 明 如 表 7-2 所 示 。 


表 7-2 ACK/NAK DLLP 的 详细 说 明 


名 称 位 置 描 述 
0b0000-0000 表示 为 ACK 报 文 
的 7 ~0 位 eh 
DLLP Type Byte0 的 7~0 位 0b0001-0000 表示 为 NAK 报 文 


Byte2 的 3~0 位 ， 
Byte3 的 7~0 位 


CRC Byte 4 ~ Byte 5 保存 DLLP 的 CRC 校 验 和 。 


AckNak_Seq_Num 该 字段 表 示 接 收 端 成 功 接收 的 报 文 序号 ,下 文 将 详细 解释 该 字段 。 


发 送 端的 数据 链 路 层 负责 将 TLP 传送 给 接收 端 ， 而 接收 端的 数据 链 路 层 在 收 到 TLP 之 
后 ， 将 向 发 送 端 发 送 ACKANAK DLLP。 发 送 端 和 接收 端 通过 某 种 传送 协议 ， 完 成 数据 链 路 
层 的 数据 交换 ， 在 PCIe 总 线 中 ， 这 个 协议 称 为 ACKZNAK 协议 。 


7.2 ACK/NAK 协议 


ACK/NAK 协议 是 一 种 滑动 窗口 协议 。PCIe 设备 的 发 送 端 和 接收 端 分 别 设置 了 两 个 窗 
口 。 发 送 端 在 发 送 TLP 时 ， 首 先 将 这 个 TLP 放 入 发 送 窗口 中 (这 个 窗口 即 Replay Buffer)， 
并 对 这 些 TLP 从 0 ~n 进行 编号 。 只 要 发 送 窗 口 不 满 ， 发 送 端 就 可 以 持续 地 从 事务 层 中 接收 
报 文 ， 然 后 将 其 放 入 Replay Buffer 中 。 
发 送 端 需要 保留 在 这 个 窗口 中 的 数据 报 文 ， 并 在 收 到 来 自 接收 端的 ACKZNAK 确认 报 文 
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之 后 ， 统 一 释放 保存 在 发 送 窗 口中 的 报 文 ， 并 滑动 这 个 发 送 窗 口 。 当 发 送 端 收 到 接收 端 对 第 
n 个 报 文 的 确认 后 ， 表 示 第 n、n -1、n -2 等 在 窗口 中 的 报 文 都 已 经 被 正确 收 到 ， 然 后 统一 
滑动 这 个 窗口 。PCIe 总 线 使 用 这 种 方法 可 以 提高 窗口 的 利用 率 。 

与 此 对 应 ， 接 收 端 也 维护 了 一 个 窗口 ， 该 窗口 记录 数据 报 文 的 发 送 序列 号 范围 。 当 数据 
报 文 到 达 后 ， 如 果 其 序列 号 在 接收 窗口 范围 内 ， 接 收 端 将 接收 该 报 文 ， 并 根据 根据 实际 情 
况 ， 向 发 送 端 发 送 回应 报 文 。 这 个 回应 报 文 包括 ACK 和 NAK DLLP。 下 文 将 分 别 讨论 发 送 
端 和 接收 端 如 何 使 用 ACKANAK 协议 。 


7.2.1 发 送 端 如 何 使 用 ACK/NAK 协议 


数据 链 路 层 在 发 送 TLP 之 前 ， 发 送 端 首先 需要 将 TLP 进行 封装 ， 加 上 Sequence 前 级 和 
LCRC 后 级 ， 之 后 再 将 这 个 TLP 放 入 Replay Buffer 中 。 发 送 端 设置 了 一 个 12 位 的 计数 需 
NEXT_TRANSMIT_SEQ， 这 个 计数 器 的 初始 值 为 0， 当 数据 链 路 层 处 于 DL_Inactive 状态 时 ， 
该 计数 器 将 保持 为 0。 为 简化 起 见 ， 本 节 只 讲述 数据 链 路 层 处 于 DL_Active 状态 时 的 情况 ， 
而 不 讲述 处 于 DL_Inactive 状态 时 的 情况 。 

发 送 端 使 用 计数 器 NEXT_TRANSMIT_SEQ 的 当前 值 设 置 TLP 的 Sequence 号 ， 该 计数 器 
的 初始 值 为 0。PCIe 设备 每 发 送 完 毕 一 个 TLP， 这 个 计数 器 将 加 1， 直 到 该 计数 器 的 值 为 
4095( NEXT_TRANSMIT_SEQ 的 最 大 值 ) 。 当 计数 器 的 值 为 4095 后 ， 再 进行 加 1 操作 时 ,该 
计数 需 将 回归 为 0。 而 LCRC 是 根据 TLP 的 内 容 计算 出 来 的 ， 用 来 保证 数据 传递 的 完整 性 ， 
本 节 不 介绍 LCRC 的 计算 过 程 。 对 此 有 兴趣 的 读者 请 参考 PCIe 总 线 规范 。 

与 此 对 应 ， 接 收 端 也 设置 了 一 个 12 位 的 计数 器 NEXT_RCV_SEQ。 这 个 计数 器 记录 接收 
端 即 将 接收 的 TLP 的 Sequence 号。 这 个 计数 器 的 初始 值 为 0， 当 数据 链 路 层 处 于 DL_Inactive 
状态 时 ， 该 计数 需 保 持 为 0。 在 正常 情况 下 ， 到 达 接 收 端 的 TLP， 其 Sequence 号 和 这 个 计数 
器 中 的 内 容 一 致 。 当 接收 端 将 这 个 TLP 转发 到 事务 层 后 ， 这 个 计数 器 将 加 1， 当 计数 器 的 值 
为 4095 后 ， 再 进行 加 1 操作 时 ， 该 计数 器 将 回归 为 0。 如 果 到 达 接 收 端的 TLP， 其 序号 与 这 
个 计数 器 中 的 值 不 一 臻 时， 接收 端 需要 进行 特殊 处 理 ， 详 见 下 文 。 

发 送 端 为 处 理 来 自 接收 端的 ACKZNAK DLLP， 设 置 了 一 个 12 位 的 计数 器 ACKD_SEQ。 
这 个 计数 器 记载 最 近 接 收 到 的 ACKZNAK DLLP 的 AckNak_Seq_Num 字段 。 这 个 计数 器 的 初 
始 值 为 全 1， 当 数 据 链 路 层 处 于 Inactive 状态 时 ,该 计数 器 保持 为 全 1。 发 送 端 收 到 ACK/ 
NAK DLLP 后 ,将 使 用 这 些 DLLP 中 的 AckNak_Seq_Num 字段 更 新 ACKD_SEQ 计数 器 。 

如 果 (NEXT_TRANSMIT_SEQ-ACKD_SEQ ) mod 4096 > =2048 时 ， 发 送 端 将 不 会 从 事务 
层 继续 接收 新 的 TLP， 因 为 此 时 发 送 端 已 经 发 送 了 许多 TLP， 但 是 接收 端 可 能 并 没有 成 功 接 
收 这 些 TLP， 因 此 并 没有 及 时 发 送 ACK/NAK DLLP 作为 回应 。 在 多 数 情况 下 ， 当 PCIe 链 路 
出 现 了 某 些 问题 时 ， 才 可 能 导致 该 公式 成 立 。 此 外 ACKD_SEQ 计数 器 还 可 以 帮助 发 送 端 重 
发 错误 的 TLP， 下 文 将 详细 解释 这 个 功能 。 

发 送 端 首先 将 从 事务 层 获得 的 TLP 存放 到 Replay Buffer 中 ， 在 Relpay Buffer 中 可 以 存放 
多 个 TLP， 这 个 Replay Buffer 为 发 送 端 使 用 的 发 送 窗 口 。PCIe 总 线 并 没有 规定 在 Replay 
Buffer 中 存放 TLP 的 个 数 ， 不 同 的 设计 可 以 采用 的 大 小 不 同 ， 其 中 有 一 个 重要 的 原则 就 是 不 
能 使 Replay Buffer 成 为 整个 设计 的 瓶颈 ，Replay Buffer 应 该 始终 保证 有 足够 的 空间 接收 来 自 
事务 层 的 报 文 。 
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TLP 进入 Replay Buffer 之 后 ， 发 送 端 首先 将 这 个 TLP 封装 ， 然 后 从 Replay Buffer 中 发 送 
到 物理 层 ， 最 终 达 到 接收 端 。 发 送 端 将 TLP 发 送出 去 之 后 ， 将 等 待 来 自 接收 端的 应 答 ， 接 
收 端 使 用 ACKANAK DLLP 发 送 这 个 应 答 。 发 送 端 根 据 应 答 结 果 决 定 是 将 TLP 从 Replay Buff- 
er 中 清除 ， 还 是 重 发 在 Replay Buffer 中 的 TLP。 下 文 将 以 几 个 实例 说 明 发 送 端 如 何 处 理 来 自 
接收 端的 应 答 。 

1. 发送 端 收 到 ACK DLLP 报 文 

如 图 7-6 所 示 ， 假 设 发 送 端 从 Replay Buffer 中 间接 收 端 发 送 Sequence 号 为 3 ~7 的 报 
文 。 接 收 端 收 到 这 些 报 文 后 将 发 送 ACK DLLP 作为 回应 ， 其 详细 步骤 如 下 。 


Recieve| Buffer 


图 7-6 发 送 端 收 到 ACK DLLP 


(1) 发 送 端 向 接收 端 发 送 TLP3 ~7， 其 中 TLP3 是 第 一 个 报 文 ，TLP7 是 最 后 一 个 报 文 。 
此 时 发 送 端的 NEXT_TRANSMIT_SEQ 计数 器 为 8 ， 表 示 即 将 填 人 到 Replay Buffer 中 的 报 文 序 
列 号 为 8。 

(2) 接收 端 按 序 收 到 TLP3 ~5， 而 TLP6 和 7 仍 在 传送 过 程 中 。 接 收 端的 NEXT_RCV_ 
SEQ 计数 器 为 6， 表 示 即 将 接收 的 报 文 序列 号 为 6。 

(3) 接收 端 通过 报 文 检查 决定 接收 TLP3 ~5， 然 后 发 送 ACK DLLP， 此 时 这 个 ACK 
DLLP 的 AckNak_Seq_Num 字段 为 5。 为 了 提高 总 线 的 利用 率 ， 接 收 端 不 会 为 每 一 个 接收 到 
的 TLP 都 做 出 应 答 。 在 这 个 例子 中 ，AckNak_Seq_Num 字段 为 5 表示 TLP3 ~5 都 已 经 被 
接收 。 

(4) 发 送 端 收 到 AckNak_Seq_Num 字段 为 5 的 ACK DLLP 后 ， 得 知 TLP3 ~5 都 被 成 功 接 
收 。 此 时 发 送 端 将 TLP3 ~5 从 Replay Buffer 中 清除 。 

(5) 接收 端 陆续 收 到 TLP6 ~7 后 ,接收 端的 NEXT_ RCV_ SEQ 计数 器 为 8， 表 示 即 将 
接收 的 报 文 序列 号 为 8。 然 后 接收 端 向 发 送 端 发 送 ACK DLLP， 这 个 DLLP 的 AckNak_Seq_ 
Num 字段 为 7, 即 为 NEXT_RCV_SEQ -1。 

(6) 发 送 端 收 到 AckNak_Seq_Num 字段 为 7 的 ACK DLLP 后 , 得 知 TLP6 ~7 都 被 成 功 接 
收 。 此 时 发 送 端 将 TLP6 ~7 从 Replay Buffer 中 清除 。 

2. 发 送 端 收 到 NAK DLLP 报 文 

如 图 7-7 所 示 ， 假 设 发 送 端 从 Replay Buffer 中 向 接收 端 发 送 Sequence 号 为 3 ~7 的 报 
文 。 接 收 端 收 到 这 些 报 文 后 ， 发 现 有 错误 的 TLP， 此 时 将 发 送 NAK DLLP 而 不 是 ACK DLLP， 
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其 详细 步骤 如 下 。 


Recieve| Buffer 


ACK/NAK 
Generator 


图 7-7 发 送 端 收 到 NAK DLLP 


(1) 发 送 端 向 接收 端 发 送 TLP3 ~7， 其 中 TLP3 是 第 一 个 报 文 ， 而 TLP7 是 最 后 一 个 
报 文 。 

(2) 接收 端 按 序 收 到 TLP3 ~5， 而 TLP6 和 7 仍 在 传送 过 程 中 。 

(3) 接收 端 通过 报 文 检查 决定 接收 TLP3 ~4， 此 时 NEXT_RCV_SEQ 为 5， 表 示 即 将 接 
收 TLP5。 

(4) TLP5 没有 通过 完整 性 验证 ， 此 时 接收 端 将 向 对 端 发 送 NAK DLLP， 这 个 DLLP 的 
AckNak_Seq_Num 字段 为 4, 即 为 NEXT_RCV_SEQ -1。AckNak_Seq_Num 字段 为 4 表示 接收 
端 最 后 一 个 接收 正确 的 TLP， 其 Sequence 号 为 4。 

(5) 发 送 端 收 到 AckNak_Seq_Num 字段 为 4 的 NAK DLLP 后 , 得 知 TLP3 ~4 已 被 成 功 接 
收 。 此 时 发 送 端 首先 停止 从 事务 层 接收 新 的 TLP， 之 后 将 TLP3 ~4 从 Replay Buffer 中 清除 。 

(6) 发 送 端 重新 发 送 在 Replay Buffer 中 从 TLP5 开始 的 报 文 。 在 这 个 例子 中 ， 发 送 端 将 
重新 发 送 TLP5 ~7。 

发 送 端 每 一 次 收 到 NAK DLLP 后 ， 都 将 重 发 在 Replay Buffer 中 剩余 的 TLP。 但 是 发 送 端 
不 能 无 限 次 重 发 同一 个 TLP， 因 为 出 现 这 种 情况 意味 着 链 路 出 现 了 某 些 问题 ， 必 须 修复 这 些 
问题 后 ， 才 能 继续 重 发 这 些 TLP。 为 此 在 发 送 端 中 设置 了 一 个 2 位 计数 器 REPLAY_NUM， 
这 个 计数 器 的 初始 值 为 0， 当 数据 链 路 层 处 于 Inactive 状态 时 ， 该 计数 器 保持 为 0。 

REPLAY_NUM 计数 器 按照 以 下 几 个 原则 进行 更 新 。 

e 当 发 送 端 第 一 次 收 到 NAK DLLP 后 ，REPLAY_NUM 计数 器 将 加 1, 此 时 ACKD_SEQ 
计数 器 被 赋值 为 这 个 NAK DLLP 的 AckNak_Seq_Num 字段 。 之 后 当 发 送 端 收 到 新 的 
ACK/NAK DLLP， 而 且 其 AckNak_Seq_Num 字段 大 于 ACKD_SEQ 计数 器 的 值 时 ( 表 
示 发 送 端 至 少 重 传 成 功 一 个 TLP) ，REPLAY_NUM 计数 器 将 被 重 置 为 0, ACKD_SEQ 
计数 器 的 值 也 更 新 为 相应 的 值 。 

e PCle 总 线 规定 发 送 端 新 收 到 的 ACKZNAK DLLP， 其 AckNak_Seq_Num 字段 不 能 小 于 
ACKD_SEQ 计数 器 ， 如 果 出 现 这 种 问题 ， 将 是 芯片 的 Bug。 

e 如 果 新 的 ACK/ANAK DLLP， 其 AckNak_Seq_Num 字段 值 等 于 ACKD_SEQ 计数 器 的 值 
时 ， 表 示 发 送 端正 在 反复 地 重新 发 送 同一 个 TLP， 此 时 REPLAY_NUM 计数 器 将 加 1， 
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当 这 个 计数 器 溢出 时 ， 发 送 端 将 不 再 重复 发 送 这 个 TLP， 而 是 重新 进行 链 路 训练 ， 当 
PCIe 链 路 恢复 正常 后 ， 再 重新 发 送 这 个 TLP。 

发 送 端 除了 设置 REPLAY_NUM 计数 器 ， 判 断 PCIe 链 路 可 能 出 现 的 故障 之 外 ， 还 设置 
了 男 一 个 计数 器 REPLAY_TIMER， 进 一 步 识别 PCIe 链 路 可 能 出 现 的 故障 。 因 为 使 用 ACKD_ 
SEQ 计数 器 判断 链 路 故障 的 基础 是 发 送 端 可 以 收 到 ACKZNAK DLLP。 但 是 在 某 种 情况 下 ， 
发 送 端 虽然 发 送 了 TLP， 但 是 接收 端 没 有 回应 ACKZNAK DLLP， 或 者 由 于 PCIe 链 路 故障 发 
送 端 没 有 收 到 这 个 回应 。 

此 时 发 送 端 需 要 使 用 REPLAY_TIMER 计数 器 ， 以 判断 在 TLP 的 传送 过 程 中 是 否 出 现 异 
常 。REPLAY_TIMER 计数 器 记载 一 个 TLP 报 文 从 发 送 到 获得 ACKANAK DLLP 回应 的 时 间 ， 
当 这 个 时 间 过 长 时 ， 发 送 端 认为 PCIe 链 路 出 现 故 障 。REPLAY_TIMER 计数 器 的 更 新 规则 如 
下 所 示 。 

(1) REPLAY_TIMER 计数 器 的 初始 值 为 0， 在 发 送 端 发 出 或 者 重新 发 出 一 个 TLP 后 以 
一 个 固定 的 时 钟 频率 开始 计数 ， 当 REPLAY_TIMER 计数 器 到 达 设 定 的 阔 值 时 ， 将 认为 PCIe 
链 路 出 现 故障 ， 此 时 PCIe 设备 将 进行 PCIe 链 路 的 恢复 工作 。 如 果 发 送 端 可 以 正常 收 到 
ACKZNAK DLLP 时 ,该 计数 器 不 会 溢出 。 

(2) 发 送 端 收 到 ACK DLLP， 而 且 在 Replay Buffer 中 没有 “已 经 发 送 而 且 尚 未 被 确认 的 
TLP” 后 ，REPLAY_TIMER 计数 器 被 重 置 并 重新 开始 计数 。 在 正常 情况 下 ， 发 送 端 每 发 送 
一 个 TLP 后 ，REPLAY_TIMER 计数 需 将 被 重 置 并 重新 计数 ， 但 是 有 时 在 Replay Buffer 中 存 
在 一 些 TLP， 这 些 TLP 已 经 被 发 送出 去 , 但 是 并 没有 收 到 相应 的 ACK DLLP， 此 时 REPLAY 
TIMER 计数 器 不 能 被 重 置 。 

(3) 当 Replay Buffer 中 没有 任何 TLP 时 ，REPLAY_TIMER 计数 器 将 被 重 置 而 且 其 值 保 
持 不 变 。 

(4) 发 送 端 收 到 NAK DLLP 之 后 ，REPLAY_TIMER 计数 器 将 被 重 置 而 且 其 值 保持 不 变 。 
当 数 据 链 路 层 重 新 发 送 TLP 时 ，REPLAY_TIMER 计数 器 才 重 新 开始 计数 。 

(5) REPLAY_TIMER 计数 器 到 达 设 定 的 闷 值 后 ,该 计数 器 的 值 将 被 重 置 ， 且 保持 不 变 。 
此 时 PCIe 链 路 可 能 出 现 某 种 异常 ， 当 这 些 异 常 被 处 理 完毕 后 ，REPLAY_TIMER 计数 器 才 可 
能 重新 计数 。 

(6) PCIe 链 路 重新 训练 时 ，REPLAY_TIMER 计数 器 的 值 保持 不 变 。 准 确 地 说 ，PCIe 链 
路 处 于 Recovery 或 者 Configuration 状态 时 ，REPLAY_TIMER 计数 需 的 值 保 持 不 变 。 有 关 Re- 
covery 或 者 Configuration 状态 的 详细 说 明 见 第 8. 2 节 。 

PCIe 总 线 规范 提供 了 计算 REPLAY_TIMER 计数 器 阔 值 的 经 验 公 式 ， 这 个 国 值 和 PCIe 
设备 和 主 桥 提 供 的 Max_Payload_Size 成 正比 ， 与 PCle 链 路 宽度 成 反比 ， 本 节 对 此 公式 不 进 
行 详细 说 明 。 值 得 注意 的 是 ， 这 个 经 验 公 式 是 基于 x86 处 理 器 计算 得 出 的 ， 不 同 的 处 理 器 在 
此 处 的 实现 不 尽 相同 。 


7.2.2 接收 端 如 何 使 用 ACKZNAK 协议 


接收 端 首 先 从 物理 层 获得 TLP， 此 时 在 这 个 TLP 中 包含 Sequence 号 前 级 和 LCRC 后 级 。 
接收 端 收 到 这 个 TLP 后 ， 首 先 将 这 个 报 文 放 入 Receive Buffer 中 ， 然 后 进行 CRC 检查 。 如 果 
CRC 检查 成 功 ， 接 收 端 将 根据 接收 缓冲 的 靖 值 发 送 ACK DLLP 给 发 送 端 ， 并 将 这 个 TLP 传 
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给 事务 层 。 除 了 CRC 校 验 外 ， 接 收 端 还 需要 做 其 他 检查 ， 本 节 对 此 不 进行 介绍 。 

1. 接收 端 发 送 ACK DLLP 

当 接 收 端 收 到 的 TLP 没有 出 现 LCRC 错误 ， 而 且 TLP 的 Sequence 号 和 NEXT_RCV_SEQ 
计数 器 的 值 相 同时 ， 接 收 端 将 正确 接收 这 个 TLP， 并 将 其 转发 给 事务 层 ， 随 后 接收 端 将 
NEXT_RCV_SEQ 计数 器 加 1。 

接收 端 根据 具体 情况 ,决定 向 发 送 端 立即 发 送 ACK DLLP， 还 是 等 待 接收 到 更 多 的 TLP 
后 再 发 送 ACK DLLP。 如 果 接 收 端 决定 发 送 ACK DLLP， 则 该 ACK DLLP 的 AckNak_Seq_Num 
字段 为 NEXT_RCV_SEQ -1， 即 已 经 正确 接收 TLP 的 Sequence 号 。 

接收 端 不 会 对 每 一 个 正确 接收 的 TLP 发 出 ACK DLLP 回应 ， 因 为 这 样 将 严重 影响 PCIe 
总 线 链 路 的 使 用 效率 ， 而 是 收集 一 定数 量 的 TLP 后 ， 统 一 发 出 一 个 ACK DLLP 回应 表示 之 
前 的 TLP 都 已 正确 接收 。 

为 此 接收 端 使 用 了 一 个 ACKNAK_LATENCY_ TIMER 计数 器 ， 当 这 个 计数 器 超时 或 者 接 
收 的 报 文 数 超过 一 个 闪 值 后 ， 向 发 送 端 发 送 一 个 ACK DLLP 回应 。 此 时 这 个 ACK DLLP 的 
AckNak_Seq_Num 字段 为 在 这 段 时 间 以 来 ， 最 后 一 个 被 正确 接收 的 TLP 的 Sequence 号 。 不 同 
的 设计 在 此 处 的 实现 不 尽 相 同 。 但 是 这 些 实现 都 要 遵循 以 下 两 个 原则 。 

(1) 接收 端 在 收 到 一 定数 量 的 报 文 后 ， 统 一 发 送 一 个 ACK DLLP 做 为 回应 。 

(2) 接收 端 收 到 的 报 文 虽然 没有 到 达 阔 值 ， 但 是 ACKNAK_LATENCY_TIMER 计数 器 超 
时 后 ， 仍 然 要 发 出 ACK DLLP 作为 回应 。 在 某 些 情况 下 ， 发 送 端 可 能 在 发 送 一 个 TLP 后 ， 
在 很 长 一 段 时 间 内 ， 都 不 会 发 送 新 的 TLP， 此 时 接收 端 必须 及 时 给 出 ACK DLLP 回应 ， 以 免 
发 送 端的 REPLAY_TIMER 计数 器 溢出 。 

下 面 将 以 一 个 实例 说 明 接 收 端 如 何 发 送 ACK DLLP 回应 ， 该 实例 如 图 7-8 所 示 ， 其 描述 
如 下 所 示 。 


Recieve| Buffer 


图 7-8 接收 端 发 送 ACK DLLP 


(1) 发 送 端 发 送 TLP3 ~7 给 接收 端 ， 其 中 TLP3 是 第 一 个 报 文 ， 而 TLP7 是 最 后 一 个 
报 文 。 
(2) 接收 端 按 序 收 到 TLP3 ~5， 而 TLP6 和 7 仍 在 传送 过 程 中 。 此 时 NEXT_RCV_SEQ 的 
值 被 更 新 为 6， 表 示 下 一 个 即将 接收 的 TLP， 其 Sequence 号 为 6。 
(3) 接收 端 通过 报 文 检查 决定 接收 TLP3 ~5， 然 后 发 送 ACK DLLP， 这 个 DLLP 的 Ack- 
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Nak_Seq_Num 字段 为 5。 为 了 提高 总 线 的 利用 率 ， 接 收 端 不 会 对 每 一 个 接收 到 的 TLP 都 做 出 
应 答 。 在 这 个 例子 中 ，AckNak_Seq_Num 字段 为 5 表示 TLP3 ~5 都 已 经 被 接收 。 

(4) 接收 端 将 接收 到 的 TLP3 ~5 传递 给 事务 层 。 

(5) 接收 端 陆续 收 到 TLP6 ~7 后 ， 继 续 执行 步骤 3 ~4。 

2， 接 收 端 发 送 NAK DLLP 

接收 端 设置 了 一 个 NAK_SCHEDULED 位 ， 该 位 用 来 判断 接收 端 如 何 发 送 NAK DLLP， 
该 位 的 初始 值 为 0。 当 接收 端 接收 TLP 出 现 错误 时 ， 将 该 位 置 为 1; 当 出 现 “ 错 误 的 TLP” 
被 重新 接收 成 功 后 ， 该 位 被 置 为 0。 

如 果 接 收 端 发 现 TLP 的 CRC 错误 后 ,将 丢弃 这 个 TLP， 并 发 送 NAK DLLP， 这 个 DLLP 
的 AckNak_Seq_Num 字段 为 NEXT_RCV_SEQ -1， 即 最 后 一 个 正确 接收 TLP 的 Sequence 号 。 
此 时 NEXT_RCV_SEQ 计算 器 将 保持 不 变 ，NAK_SCHEDULED 位 将 被 置 为 1。 

当 这 个 NAK DLLP 到 达 发 送 端 之 前 ，PCIe 链 路 还 有 一 些 正 在 传送 的 TLP， 这 些 报 文 将 陆 
续 到 达 接 收 端 ， 这 些 报 文 的 Sequence 号 都 将 大 于 NEXT_RCV_SEQ ， 此 时 接收 端 不 会 接收 这 
些 报 文 ， 而 且 接收 端 也 不 会 为 这 些 报 文 发 送 NAK DLLP， 因 为 此 时 NAK_SCHEDULED 位 继 
续 保 持 有 效 ， 即 为 1 。 

PCIe 总 线 规范 没有 规定 接收 端 如 何 拒 收 后 续 的 TLP 报 文 ， 较为 合理 的 实现 方式 是 这 些 
后 续 的 报 文 无 需 进 入 接收 端的 Receive Buffer 就 被 拒绝 。 这 样 接收 端 只 为 已 经 进入 Receive 
Buffer 中 的 TLP 发 出 ACKZNAK 回应 。 

如 果 接 收 端 收 到 一 个 重 试 的 TLP 报 文 ， 其 Sequence 号 与 NEXT。 RCV_ SEQ 相等 ， 而 且 

报 文 没有 出 现 错误 ， 接 收 端 将 NEXT_RCV_SEQ 加 1 同时 清除 NAK_SCHEDULED 位 。 此 时 表 
示 重 试 的 报 文 已 经 被 正确 接收 。 
如 果 接 收 端 收 到 的 TLP， 其 Sequence 号 小 于 NEXT_RCV_SEQ， 这 种 情况 通常 是 由 于 
TLP 传送 过 程 中 的 延 时 ， 产 生 的 重复 TLP， 此 时 接收 端 将 丢弃 这 个 报 文 ，NEXT_RCV_SEQ 
计数 右 的 值 也 不 会 改变 ， 随 后 接收 端 将 向 对 端 发 送 ACK DLLP， 这 个 DLLP 的 AckNak_Seq_ 
Num 为 NEXT_RCV_SEQ -1。 

[ Ravi Budruk ，Don Anderson and Tom Shanley |] 列举 了 一 个 实例 说 明 在 某 种 情况 下 ， 接 收 
端 将 收 到 此 类 报 文 。 接 收 端 正确 接收 到 TLP 后 ， 将 发 送 ACK DLLP， 但 是 由 于 链 路 故障 ， 这 
个 报 文 并 没有 到 达 发 送 端 ， 此 时 已 经 发 送 的 TLP 将 不 会 从 发 送 端的 Replay Buffer 中 清除 ， 最 
终 REPLAY_TIMER 将 溢出 ， 此 时 发 送 端 有 可 能 重新 进行 链 路 训练 ， 当 链 路 恢复 正常 后 ， 发 
送 端 将 重新 发 送 Replay Buffer 中 的 所 有 TLP。 在 这 种 情况 下 ， 接 收 端 将 收 到 Sequence 号 比 
NEXT_RCV_SEQ 小 的 TLP。 

下 面 将 使 用 一 个 实例 进一步 说 明 接 收 端 如 何 发 送 NAK DLLP， 该 实例 如 图 7-9 所 示 ， 其 
描述 如 下 所 示 。 

(1) 发 送 端 向 接收 端 发 送 TLP3 ~7， 其 中 TLP3 是 第 一 个 报 文 ， 而 TLP7 是 最 后 一 个 
报 文 。 

(2) 接收 端 按 序 收 到 TLP3 ~5， 并 将 这 些 报 文 放 入 Receive Buffer， 当 然 也 可 以 在 这 些 报 
文通 过 完整 性 检查 后 ， 再 决定 是 否 将 这 些 TLP 放 入 Receive Buffer 中 ， 而 TLP6 和 7 仍 在 传送 
过 程 中 。 

(3) 接收 端 通过 报 文 检查 决定 接收 TLP3 ~4, 此 时 NEXT_RCV_SEQ 为 5, 表示 即将 接收 
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TLP5 。 此 时 接收 端 将 TLP3 ~4 传递 给 事务 层 。 


Recieve| Buffer 


ACK/NAK 


Generator 


图 7-9 接收 端 如 何 发 送 NAK DLLP 


(4) 而 TLPS 没有 通过 完整 性 验证 ， 此 时 接收 端 将 发 送 NAK DLLP， 这 个 DLLP 的 Ack- 
Nak_Seq_Num 字段 为 4, 即 NEXT_RCV_SEQ -1。AckNak_Seq_Num 字段 为 4 表示 接收 端 最 后 
一 个 正确 接收 的 TLP， 其 Sequence 号 为 4。 此 时 接收 端 将 设置 NAK_SCHEDULED 位 为 1, 而 
NEXT_RCV_SEQ 保持 不 变 ， 即 为 5。 

(5) 接收 端 将 丢弃 TLP5。 当 TLP6 ~7 到 达 时 ， 接 收 端 仍然 丢弃 这 些 报 文 ， 即 便 这 些 报 
文通 过 了 完整 性 检查 ， 因 为 这 些 报 文 的 Sequence 号 大 于 NEXT_RCV_SEQ。 接收 端 不 会 为 
TLP6 ~7 发 送 NAK DLLP, 因为 此 时 NAK_SCHEDULED 位 有 效 。 

(6) 发 送 端 收 到 NAK DLLP， 其 序号 为 4， 此 时 发 送 端 首 先 将 TLP3 ~4 从 Replay Buffer 
中 清除 ,因为 TLP3 ~4 已 经 被 接收 端正 确 接收 , 然后 重新 发 送 TLP5 ~7。 

(7) 接收 端 如 果 正 确 接收 到 TLP5 时 ， 发 现 其 Sequence 号 与 NEXT_RCV_SEQ 相等 , 将 
清除 NAK_SCHEDULED 位 。 

(8) 接收 端 陆续 接收 到 TLP6 ~7， 并 根据 CRC 的 检查 结果 决定 发 送 ACK DLLP 或 者 
NAK DLLP。 

在 某 些 情况 下 ， 接 收 端 发 送 的 NAK DLLP 可 能 并 没有 被 发 送 端正 确 接收 ， 因 此 接收 端 在 
很 长 一 段 时 间 内 都 不 会 得 到 “发 送 端 重 试 的 ”TLP。 此 时 接收 端 将 会 择 时 重 发 NAK DLLP， 
为 此 接收 端 设 置 了 一 个 AckNak_LATENCY_TIMER 计数 器 ， 当 该 计数 器 溢出 时 ， 接 收 端 将 重 
发 NAK DLLP。 该 计数 器 的 更 新 规则 如 下 。 

(1) 当 接 收 端 发 送 ACK 或 者 NAK DLLP 时 ,该 计数 器 重 置 并 开始 计数 。 

(2) 接收 端 为 “所 有 已 接收 的 TLP” 发 送 了 ACK DLLP 报 文 时 ,或 者 数据 链 路 层 状 态 为 
DL_Inactive 时 ， 该 计数 需 被 重 置 旦 保持 为 0。 

AckNak_LATENCY_TIMER 计数 器 的 闽 值 是 REPLAY_TIMER 计数 器 阔 值 的 1/32。 当 接 
收 端 等 待 的 时 间 超 过 AckNak_LATENCY_TIMER 计数 器 的 阔 值 后 ,接收 端 将 重 发 一 个 ACK 


ACKNAK_LATENCY_TIMER 计数 器 的 冰 值 是 REPLAY_TIMER 阅 值 的 1/3， 可 以 保证 接收 端 至 少 可 以 重 发 两 次 
ACD DLLP 给 发 送 端 。 
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DLLPS 。 

当 发 送 端 发 送 若 干 个 TLP 之 后 ， 接 收 端 将 发 送 一 个 ACK DLLP 作为 回应 。 但 是 在 某 些 
情况 下 ， 发 送 端 并 没有 收 到 接收 端 的 ACK DLLP。 此 时 接收 端 需要 在 AckNak_LATENCY 
TIMER 计数 器 溢出 时 ， 重 新 发 送 ACK DLLP。 从 而 防止 “因为 发 送 端的 REPLAY_TIMER 计 
数 器 溢出 ”， 重 新 进行 PCle 链 路 训练 ， 重 发 更 多 的 TLP。 


7.2.3 数据 链 路 层 发 送 报 文 的 顺序 


数据 链 路 层 还 规定 了 报 文 发 送 的 顺序 。 由 上 文 的 描述 中 ， 我 们 可 以 发 现 DLLP 和 TLP 的 发 
送 共 用 一 个 PCIe 链 路 ， 除 此 之 外 物理 层 的 报 文 PLP (Physical Layer Packet) 也 使 用 同样 的 链 
路 。 因 此 PCIe 链 路 需要 合理 地 安排 报 文 的 发 送 顺 序 ， 以 避免 死 锁 。 其 发 送 顺序 如 下 所 示 。 

(1) 正在 发 送 的 TLP 或 者 DLLP 具有 最 高 的 优先 权 。PCIe 总 线 为 了 保证 数据 的 完整 性 
不 允许 打 断 正在 传送 的 报 文 。 从 理论 上 讲 ， 打 断 正 在 传送 的 报 文 是 可 行 的 ， 但 是 硬件 需要 更 
大 的 代价 ， 也 需要 制定 更 加 复杂 的 协议 保证 数据 的 完整 性 。 

(2) PLP 的 传送 。 一 般 来 说 ， 处 于 协议 底层 的 报 文 优先 权 高 于 处 于 协议 高 层 的 报 文 ， 这 
也 是 解决 死 锁 的 一 个 有 效 方法 。 

(3) NAK DLLP。NAK DLLP 需要 优先 于 TLP 的 发 送 ， 原 理 同 上 。 

(4) ACK DLLP。ACK DLLP 响应 正确 接收 的 报 文 ， 在 绝 大 多 数 处 理 过 程 中 ， 错 误 处 理 
报 文 优先 于 正确 的 响应 ， 这 也 是 一 种 防止 死 锁 的 方法 。 

(5) 重新 传送 Replay Buffer 中 的 TLP。 也 是 一 种 发 现 错误 后 的 恢复 手段 ， 因 此 这 种 报 文 
的 传递 优先 权 高 于 其 他 TLP。 因 为 在 错误 没有 处 理 完毕 之 前 ， 其 他 TLP 的 传递 是 没有 意义 
的 ， 接 收 端 都 将 丢弃 这 些 报 文 。 

(6) 其 他 在 事务 层 等 待 的 TLP。 

(7) 其 他 DLLP， 这 些 DLLP 包括 地 址 路 由 ， 电 源 管理 等 报 文 ， 这 些 报 文 与 数据 报 文 的 
传递 无 关 ， 是 PCIe 总 线 规定 的 一 些 控 制 报 文 ， 所 以 优先 权 最 低 。 


7. 3 ”物理 层 简介 


如 图 4-4 所 示 ， 物 理 层 在 数据 链 路 层 和 PCIe 链 路 之 间 ， 其 主要 作用 有 两 个 ， 一 是 发 送 
数据 链 路 层 的 TLP 和 DLLP; 二 是 发 送 和 接收 在 物理 层 产 生 的 报 文 PLP (Physical Layer Pack- 
et) ; 三 是 从 PCle 链 路 接收 数据 报 文 并 传送 到 数据 链 路 层 。 

物理 层 主要 由 物理 层 逻 辑 模块 和 物理 层 电气 模块 组 成 ， 本 节 主 要 介绍 物理 层 的 逻辑 模 
块 ， 包 括 8/10b 编码 、 链 路 训练 等 一 些 最 基础 的 内 容 ， 并 通过 介绍 差分 信号 的 工作 原理 ， 简 
要 介绍 物理 层 的 电气 模块 。 物 理 层 的 电气 模块 对 于 深入 理解 PCIe 总 线 规范 非常 重要 ， 但 是 
许多 系统 软件 工程 师 因为 缺少 必要 的 基础 知识 ， 很 难 理解 这 部 分 内 容 。 

本 节 的 内 容 是 第 8 章 的 基础 。 如 果 读 者 需要 深入 理解 PCle 的 链 路 训练 ， 必 须 掌 握 本 节 的 
全 部 内 容 。 如 果 读 者 对 第 8 章 内 容 不 感 兴趣 ， 可 以 略 过 第 8 章 和 本 节 。 但 是 PCIe 总 线 各 个 层 


”注意 是 重 发 ACK DLLP 而 不 是 NAK DLLP。 
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次 间 的 联系 较为 紧密 ， 读 者 很 难 在 对 物理 层 一 无 所 知 的 情况 下 ， 深 入 理解 PCle 总 线 规范 。 

物理 层 的 电气 模块 与 差分 信号 的 工作 原理 密切 相关 ， 这 部 分 原理 包括 一 系列 与 信 
性 相关 的 课题 。 而 信号 完整 性 本 身 就 是 一 个 专门 的 话题 ， 其 难度 与 复杂 程度 较 高 。 信 
性 所 追求 的 目标 如 下 。 

(1) 保证 发 送 的 信号 可 以 被 接收 端正 确 接收 。 

(2) 保证 发 送 的 信号 不 会 影响 其 他 信号。 

(3) 保证 发 送 的 信号 不 会 损坏 接收 顺 件 。 

(4) 保证 发 送 的 信号 不 会 产生 较 大 的 EMI 电磁 噪声 。 

PCIe 总 线 的 物理 层 对 信号 传送 进行 了 一 系列 约定 ， 以 保证 信号 传递 的 完整 性 。 而 这 些 
约定 建立 在 差分 信号 传送 规则 的 基础 上 。 如 果 读 者 能 够 深入 理解 差分 信号 的 工作 原理 ， 理 解 
这 些 约 定 并 不 困难 。 


7.3.1 PCIe 链 路 的 差分 信号 


PCIle 链 路 使 用 差分 信号 进行 数据 传递 ， 而 差分 信号 由 两 个 信号 组 成 ， 这 与 PCI 总 线 使 
用 的 单 端 信号 有 较 大 区 别 。 

首先 所 有 信号 的 传递 都 需要 一 个 电流 回路 ， 而 且 流 入 一 个 节点 的 电流 总 和 等 于 流出 这 个 
节点 的 电流 总 和 2 。 单 端 信号 使 用 地 平面 作为 电流 回路 ， 而 这 个 地 平面 并 不 是 稳定 的 ， 极 易 
受到 干扰 ， 其 中 最 重要 的 干扰 为 SSO (Simultaneous Switching Output) 噪声 。 而 减缓 SSO 噪 
声 最 有 效 的 方法 是 为 需 件 的 电源 提供 退 耦 电容 ， 这 个 方法 也 被 西方 的 工程 师 称 为 “The rule 
of thumb”， 在 电路 设计 中 ， 该 方法 极为 普及 。 

即便 如 此 单 端 信号 使 用 的 地 平面 仍 不 足以 信赖 ， 仍 会 给 单 端 信号 的 传递 带 来 不 小 的 干 
扰 。 其 次 单 端 信号 容易 收 到 其 他 信号 的 干扰 ， 当 单 端 信号 频率 较 高 时 ， 信 号 在 传递 过 程 中 衰 
减 较 大 ， 而 采用 差分 信号 可 以 有 效 避 人 免 使 用 单 端 信号 的 这 些 问题 。 差 分 信号 是 由 驱动 端 发 送 
两 个 等 值 、 相 位 相反 的 信和 号， 接收 端 通过 这 两 个 信号 的 电压 差 值 来 判断 差分 信号 是 逻辑 状态 
“0” 还 是 “1”。 与 单 端 信号 相 比 ， 差 分 信号 具有 许多 优势 。 

(1) 抗 干 扰 能 力 较 强 。 差 分 信号 不 受 SSO 噪声 的 影响 ， 其 走 线 是 等 长 的 ， 且 距离 较 近 。 
当 外 界 存 在 噪声 干扰 时 ， 这 些 干 扰 同时 被 耦合 到 两 个 信号 上 ， 因 为 接收 端 只 关心 这 两 个 信和 号 
的 差 值 ， 这 些 干扰 相 减 后 可 以 忽略 不 计 。 

(2) 能 够 有 效 抑制 信号 传递 带 来 的 EMI 干扰 。 差 分 信号 的 极 性 相反 ， 对 外 界 辐射 的 电 
磁场 可 以 相互 抵消 ， 因 此 产生 的 噪声 较 小 。 

(3) 逻辑 状态 定位 准确 。 由 于 差分 信号 的 开关 变化 位 于 两 个 信号 的 交点 ， 而 不 像 单 端 信 
号 使 用 高 低 电压 两 个 阅 值 进行 判断 ， 因 而 受制 造 工艺 、 外 部 环境 变化 的 影响 较 小 ， 使 用 差分 
言 号 时 ， 接 收 逻 辑 较 易 判 断 逻 辑 状态 “0” 和 “1”。 

(4) 提供 的 数据 带宽 较 高 。 由 于 差分 信号 受 外 界 环 境 的 影响 较 小 ， 能 够 运行 在 更 高 的 时 
钟 频率 上 ， 从 而 提供 的 数据 带宽 较 高 。 

差分 信号 也 有 缺点 。 首 先 差分 信号 使 用 两 个 信和 号 传递 数据 ， 与 单 端 信号 相 比 使 用 的 信和 号 
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线 较 多 。 但 是 考虑 到 单 端 信号 为 了 保证 信号 质量 ， 往 往 使 用 “两 线 加 一 地 ”2 的 方式 ， 因 此 
差分 信号 使 用 的 信和 号 线 数 量 与 单 端 信号 相 比 ， 并 不 是 简单 乘 2 的 关系 。 其 次 差分 信号 的 布线 
与 单 端 信号 相 比 具有 较 多 的 约束 。 差 分 信号 对 要 求 等 长 且 平 行走 线 ， 而 且 在 实际 的 PCB 中 ， 
最 好 做 到 同 层 等 长 ， 因 为 不 同 层 间 的 特性 阻抗 并 不 完全 相等 ， 而 是 有 一 定 的 误差 。 

这 些 约束 为 差分 信号 的 使 用 带 来 了 一 些 困 难 ， 但 是 这 些 困 难 并 不 影响 差分 信号 的 大 规模 
应 用 。 目 前 已 知 的 高 速 链 路 均 使 用 差分 信号 ， 即 将 问世 的 40Gby100Gb 以 太 网 和 PCIe V3.0 
规范 也 将 继续 使 用 差分 信号 进行 数据 传递 。 

差分 信号 进行 传递 时 依然 需要 电流 回路 ， 而 且 这 个 回流 路 径 仍然 主要 使 用 地 平面 ， 虽 然 
差分 信号 对 彼此 也 可 以 作为 电流 回路 ， 但 这 并 不 是 主要 的 回流 路 径 。 所 有 高 频 信 和 号 总 是 使 用 
电感 最 小 的 电流 回路 ， 差 分 信和 号 除了 相互 间 的 耦合 之 外 ， 更 多 的 是 对 地 耘 合 。 

因此 差分 信号 在 进行 传递 时 ， 参 考 地 平面 仍然 最 为 重要 。 如 果 参 考 地 平面 不 连续 或 者 不 
存在 参考 地 平面 时 ， 差 分 信号 间 的 耦合 才 作 为 回流 通路 ， 但 是 使 用 这 种 方法 将 极 大 降低 差分 
信号 的 质量 ， 而 且 会 增加 EMI 和 干扰， 因此 在 设计 中 并 不 建议 使 用 这 种 方法 。 差 分 信号 的 传 
递 方 法 如 图 7-10 所 示 。 

如 该 图 所 示 ， 差 分 信号 使 用 两 根 信号 D+ 和 
D- 进行 信号 传递 ， 其 中 差分 信号 可 以 使 用 两 种 方 
法 描述 ， 分别 为 (Vi, V,) 和 (V,,， Vin)。 

假设 信号 D+ 的 对 地 参考 电压 为 Vi， 而 信和 号 
D- 的 对 地 参考 电压 为 V,, 使 用 (V,, V,) 可 以 描 
述 一 个 差分 信号 ， 但 是 这 种 方法 并 不 常用 。 因 为 使 
用 (V,, V,) 这 种 方法 描述 差分 信号 并 不 直观 ， 
接收 端 更 关心 这 两 个 信号 的 差 值 ， 即 V =- V,。 

为 此 我 们 引入 两 个 参数 (V。，Vur) ， 其 中 图 7-10 差分 信号 的 传递 
Va 参数 代表 信号 D+ 和 信号 D - 的 差 值 电压 ( Differential Voltage) ， 而 V ,参数 代表 这 两 个 
言 号 的 共 模 电压 (Common Mode Voltage) 。 这 两 个 参数 的 计算 方法 如 公式 7-1 所 示 。 

了 =( 凡 + 了 内)] 
Viy=V -2 

其 中 V1 =V， + Viw/2 而 V2 =V, + Vsw/2。 对 于 差分 信号 而 言 ，(Vj, V,) 和 (V,,， 
Vw) 这 两 种 描述 方式 是 完全 等 价 的 。 如 图 4-1 所 示 ， 在 PCIe 链 路 中 ， 差 分 信号 首先 经 过 
一 个 AC 耦合 电容 后 ， 才 能 到 达 接 收 端 。 因 此 接收 端 收 到 的 差分 信号 ， 其 直流 电压 已 被 滤 
去 。 因 此 在 实际 应 用 中 ， 接 收 端 并 不 关心 V。 ， 而 仅 关 心 Vjw。 但 是 发 送 端 需要 置 V。 为 一 
个 合适 的 偏 置 电压 ， 保 证 信号 的 传送 。 在 理想 情况 下 ， 差 分 信号 D + 和 了 D - 相位 相反 ， 幅 值 
相等 ， 且 V。 为 一 个 浓 量 ， 如 图 7-11 所 示 。 

在 该 图 中 实 线 部 分 为 D+ 信号 ， 而 虚线 部 分 为 D- 信号 ， 这 两 个 信号 相位 完全 相反 ， 且 
为 非常 理想 的 正弦 波 ，V。。 为 一 个 恒定 的 值 ， 而 差分 电压 Vsa 也 是 一 个 理想 的 正弦 波 ， 其 峰 
值 为 D+ 或 者 D- 信和 号 的 两 倍 。 


洒洒 


(7-1) 


G@ 使 用 单 端 数据 总 线 进行 长 距离 传递 时 ， 每 两 根 单 端 信号 线 之 间 使 用 一 根 地 线 隔 离 。 
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峰 峰 值 


图 7-11 理想 的 差分 信和 号 


然而 在 差分 信号 的 实际 应 用 中 ， 由 于 信号 D + 和 了 D - 并 不 会 完全 对 称 ， 相 位 也 不 会 完全 
相反 ， 可 能 会 存在 一 些 偏差 ， 如 图 7-12 所 示 。 


图 7-12 次 理想 的 差分 信号 


如 上 图 所 示 ， 由 于 D + 和 D -并 不 完全 对 称 ， 因 此 V,。 并 不 是 一 个 常数 ， 而 是 以 Vi 为 
中 心 进行 上 下 波动 。V,，, 为 DC 共 模 电压 (DC Common Mode Voltage) ， 其 值 为 V. 在 一 段 时 
间 内 的 平均 直流 电压 。 

与 直流 共 模 电压 相对 应 ， 在 对 差分 信号 进行 分 析 时 ， 还 使 用 AC 共 模 电压 ( AC Common 
Mode Voltage ) ， 简 写 为 Vacom _rms”?， 其 值 为 RMS((V1l + V2) -Vi )。 其 中 RMS (Root 
Mean Square) 用 来 计算 AC 电压 的 有 效 值 ， 对 于 正弦 波 而 言 ，RMS 值 约 等 于 峰值 的 
0. 707 售 。 

在 差分 信号 传递 中 ,使 用 UI ( Unit Interval) 计算 单位 时 间 ， 如 图 7-11 所 示 ，UI 的 值 
为 一 个 正弦 波 的 半 个 周期 。 在 PCIe V1.x 规 范 中 ， 使 用 的 时 钟 频 率 为 1.25 GHz， 因 此 UI 在 
399. 88 ~400. 12 ps 之 间 ; 而 PCle V2. x 规范 使 用 的 时 钟 频率 为 2. 5 GHz， 此 时 UI 在 199. 94 
~200. 06 ps 之 间 。PCIe 总 线 还 规定 了 一 系列 有 关 差 分 信号 传递 的 参数 ， 并 分 为 发 送 逻 辑 和 
接收 逻辑 2 区 别处 理 ， 如 表 7-3 和 表 7-4 所 示 。 

值得 注意 的 是 ， 在 本 书 中 发 送 端 与 发 送 轩 辑 ， 接 收 端 与 接收 逻辑 是 完全 不 同 的 概念 。 如 
图 4-1 所 示 ， 发 送 端 和 接收 端 都 包含 发 送 逻 辑 和 接收 逻辑 ， 本 书 为 强调 发 送 逻 辑 和 接收 逻 


名 通常 交流 电压 使 用 有 效 值 表示 。 
四 如 图 4-1 所 示 ， 发 送 端 和 接收 端 都 有 相应 的 发 送 逻 辑 (TX) 和 接收 逻辑 (RX) 。 
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辑 的 概念 ， 使 用 “发 送 逻 辑 TX (Transmitter) 和 接收 逻辑 RX (Receiver) 来 表示 发 送 端 和 
接收 端的 发 送 逻 辑 和 接收 逻辑 。 有 的 书籍 也 将 发 送 逻 辑 和 接收 逻辑 称 为 发 送 模块 和 接收 
模块 。 

本 节 仅 列 出 “发 送 逻 辑 TX” 和 “接收 逻辑 RX” 使 用 的 部 分 参数 ， 对 全 部 参数 有 兴趣 
的 读者 可 以 参阅 PCIe V2. 1 总 线 规范 的 表 4-9 和 表 4-12。 


表 7-3 PCle 链 路 “发 送 逻 辑 TX” 差分 信号 的 参数 
符 号 名 2.5 GT/s 5 GT/s 单 ”位 描述 
UI 399. 88 ( Min) 199. 94( Min) 时 钟 误差 范围 为 上 300 ppm, 因此 UI 存在 
400. 12( Max ) 200. 06( Max) bs 少许 误差 
0. 8( Min) 0. 8( Min) 
人 Var 的 峰 峰 值 , 等 于 2 |1Vp， -Vnp- 
TX-DIFF-PB 1 2( Max) 1.2( Max) V af 的 峰 峰 值 ,等 | Vo pb- | 
0.4(Mi 0.4(Mi 3 5 
Vp os 0 V | 在 低 电 压 模式 下 Vi 的 峰 蜂 什 
Ty 0.75( Min) 0.75( Min) UI 眼 图 的 宽度 
80( Mi jl js i 
Zrx_pIFF-DC ee We 120( Max) 0 差分 信号 的 DC 阻抗 
ee pe 、 | AC 甘 模 电压 放 这 从 ,等 于 max(V5，+ 
TX-CM-AC-PP ot specilie ( Max) m Vp_)/2 -min(V + Vp )/2 
V RS ey AC 共 模 电压 的 有 效 值 ,其 值 等 于 RMS 
TX-CM-AC-P ot specilieo m [ (V + Vp )/2- DC (Vo 4V )/2]® 
Trx.sHoRT 90( Max) 90( Max) mA 发 送 逻 辑 TX 在 短路 状态 下 的 输出 电流 
0( Min) 0( Min) i 
bP i 共 模 申 压 
TX-DC-CM 3. 6( Max) 3.6( Max) mV DC 共 模 电压 
V 0( Min) 0( Min) 发 送 逻 辑 TX 处 于 Electrical Idle 状态 时 ， 
TX-IDLE-DIFF-AC-p 20(Max) 20( Max) Vo, 和 Vp_ 的 交流 电压 差 值 
V N jfied 0( Min) 发 送 逻 辑 TX 处 于 Electrical Idle 状态 时 ， 
TX-IDLE-DIFF-DC ot specified 5( Max) m V， ,和 V，_ 的 直流 电压 差 值 。 
该 参数 与 Receiver Detection 的 过 程 相关 。 
V Tx RCVDETECT 600( Max) 600( Max) mV 第 8.1.3 节 将 详细 介绍 Receiver Detection 
逻辑 
. > 发 送 逻 辑 TX 处 于 Electrical Idle 状态 时 的 
ei MN 20( Min) 20( Min) ns 最 短 时 间 
发 送 完毕 EIOS 序列 后 ,发 送 逻 辑 TX 进入 
Ty DLESET-TO-IDLE 8( Max) 8( Max) ns Electrical Idle 状态 的 最 短 时 间 
下 8 (Max) 8( Max) 发 送 逻 辑 TX 离开 Electrical Idle 状态 ,到 可 
ax ax ns Si ve i 人 
we 以 发 送 正常 差分 信号 需要 的 转换 时 间 
Tanossinic 1.0( Max) 1.0( Max) ms 在 使 用 Crosslink 连接 两 个 Switch 时 使 用 
LTX_SKEW 500 +2UI( Max) 500 +4UI( Max) ps Lane-Lane 间 的 传送 漂移 
75 (Min) 75( Min) ER Pe 
Cr 关 K 里 入 由 安 
I DOO CM 200 Cm) nF 发 送 逻 辑 TX 使 用 的 AC 耦合 电容 


@ DCwve( Vp， +Vp_ )/2 为 一 段 时 间 内 DC 共 模 电压 的 了 


均值 ，PCIe 总 线 要 求 这 段 时 间 至 少 为 10° 个 UL。 
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表 7-4 PCle 链 路 “接收 逻辑 RX” 差 分 信号 的 参数 


符 号 名 2.5 GT/s 5 GT/s 单 ”位 描 述 
399. 88( Min ) 199. 94( Min) 六 从 
un 400. 12( Max) 200. 06( Max) 与 发 送 过 得 类 似 
V 0. 175(Min ) 0. 120( Min) Vv 
RX-DIFF-PP-CC 1.2( Max) 1.2( Max) 
Vua 的 峰 峰 值 
V 0. 175( Min) 0. 100( Min) vy 
RX-DIFF-PP-DC 1. 2( Max) 1.2( Max) 
TRx-EYE 0.4( Min) N/A UI 眼 图 的 宽度 
TRx-MIN-PULSE Not Specified 0.6( Min) UI 接收 端 需 要 的 信号 最 小 脉冲 间隔 
40( Min) . 单 端 信号 的 DC 阻抗 。 该 参数 的 作用 是 
Z s 
RX-DC 60( Max) 40( Min)160( Max) 便于 发 送 逻 辑 TX 进行 Receiver Detection 
80( Min) fi Vf A 
Z FDC Specifie 分 信号 世 
RXDIFF-DC 120( Max) Not Specified 0 差分 信号 的 DC 阻抗 
Vr Ae 150( Max) 150( Max) mV AC 共 模 电压 
接收 逻辑 RX 的 V.. 没 有 上 电 时 , 当 输入 
De 50k(Mi 50k(Mi 0 0 » 
RX-HIGH-IMP-DC-POS ( Min) ( Min) 夺 大 于 0 时 DC 共 模 输入 阻抗 
接收 逻辑 RX 的 V.. 没 有 上 电 时 , 当 输 入 
ZRXHICHIMP-DCNE 1.0k(Mi 1.0k(Mi 0 ee 
RX-HIGH-IMP-DC-NEG ( Min) (Min) 电压 小 于 0 时 DC 共 模 输入 阻抗 
65( Min) 65( Min) y 用 于 Idle 状态 检测 的 电压 阔 值 。 其 值 等 
RX-IDLE-DET-DIFFp-p 175( Max) 175 ( Max) m 于 2 | Vax ps -Van | 
当 Vug 小 于 65mV 时 ， 发 送 逻 辑 TX 可 能 
已 经 处 于 Eletrical Idle 状态 。 发 送 逻 辑 TX 
TRXIDLE-DET-DIFFENTERTIME 10( Max) 10( Max) ms 需要 在 10 本 i 别 出 这 种 “ 下 
Ss ZR TIE] 人 
lectrical Idle 状态 了? 


QO 在 正常 情况 下 , 发 送 模 块 进入 Electrical Idle 状态 之 前 ,需要 发 送 若 干 个 EIOS 序列 。 


以 上 这 些 参数 将 在 PCIe 链 路 训练 和 重新 训练 中 使 用 。 在 PCIe 总 线 中 ， 和 差分 信号 有 关 
的 内 容 还 有 许多 ， 如 阻抗 的 计算 、Emphasis ( 预 加 重 ) 、De-Emphasis ( 预 去 重 ) 和 PCB 布 
线 等 。 这 些 内 容 并 非 本 书 的 重点 ， 对 此 有 兴趣 的 读者 可 参考 Howard Johnson 和 Martin Graham 
合 著 的 High-Speed Signal Propagation。 

深入 理解 差分 信号 的 工作 原理 是 理解 PCle 电气 子 层 的 重要 基础 ， 建 议 对 处 理 器 体系 结 
构 有 兴趣 的 读者 掌握 一 些 基 本 的 信号 完整 性 的 理论 知识 。 从 PCIe 体系 结构 设计 的 角度 来 看 ， 
信号 完整 性 这 部 分 内 容 涉 及 了 许多 模拟 电路 的 设计 与 实现 知识 ， 这 部 分 内 容 是 PCIe 体系 结 
构 的 精华 所 在 ,但 并 不 是 本 书 侧重 的 内 容 。 


7.3.2 物理 层 的 组 成 结构 


PCle 总 线 的 物理 层 通 过 LTSSM 状态 机 对 PCIe 链 路 进行 配置 与 管理 ， 并 与 数据 链 路 层 进 
行 数 据 交换 ， 由 侵 辑 子 层 (Logical Sub-block) 和 电气 子 层 (Electrical Sub-block) 组 成 。 本 
节 主 要 讲述 逻辑 子 层 。 导 辑 子 层 与 数据 链 路 层 进 行 数 据 交 换 ， 由 发 送 逻 辑 TX 和 接收 逻辑 
RX 组 成 ， 其 结构 如 图 7-13 所 示 。 
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From 数 据 链 路 层 To 数据 链 路 层 


Start/End/Idle/ 
PAD Code 


PCIe 链 路 PCTIe 链 路 


图 7-13 逻辑 子 层 的 组 成 结构 


如 上 图 所 示 ， 物 理 层 发 送 报 文 的 过 程 如 下 。 

(1) 物理 层 从 数据 链 路 层 获 得 TLP 或 者 DLLP， 然 后 放 和 Tx Buffer 中 。 

(2) 物理 层 将 这 些 TLP 或 者 DLLP 加 入 物理 层 的 前 缀 (Start Code) 和 后 缀 (End 
Code) ， 后 通过 多 路 选择 髓 Mux， 进 入 Byte Stripping 部 件 。 物 理 层 也 定义 了 一 系列 PLP， 这 
些 PLP 也 可 以 通过 Mux， 进 入 Byte Stripping 部 件 。 

(3) PCIe 链 路 可 能 由 多 个 Lane 组 成 ，Byte Stripping 部 件 可 以 将 数据 报 文 分 发 到 不 同 的 
Lane 中 。 在 PCle 链 路 的 不 同 Lane 中 传递 的 数据 可 能 存在 漂移 ， 即 Skew，Byte Stripping 部 
件 还 有 一 个 重要 功能 即 消除 这 个 漂移 ， 即 De-skew。 

(4) 数据 进入 到 各 自 Lane 的 加 扰 (Scrambler) 部 件 , “加 扰 ” 后 进行 8/10b 编码 ， 最 
后 通过 并 转 串 逮 辑 将 数据 发 送 到 PCle 链 路 中 。 

物理 层 的 接收 过 程 是 发 送 的 逆 过 程 ， 其 步骤 如 下 。 

(1) 物理 层 从 PCIe 链 路 的 各 个 Lane 获得 串 行 数据 ， 并 通过 8/10b 解码 和 De-Scrambler 
部 件 ， 发 送 到 “Byte Un-Stripping” 部 件 。 

(2)“Byte Un-Stripping” 部件 将 来 自 不 同 Lane 的 数据 合并 ， 进 行 De-skew 操作 ， 然 后 取 
出 物理 层 的 前 后 绥 并 进行 边界 检查 后 ， 将 数据 放 入 Rx Buffer 中 。 

(3) 物理 层 将 在 Rx Buffer 中 的 数据 传递 到 数据 链 路 层 。 

物理 层 的 数据 在 通过 Byte Un-Stripping/Stripping 部 件 时 ， 需 要 注意 大 小 端 模式 的 转换 。 
而 Scrambler 和 De-Scrambler 部 件 的 主要 作用 是 对 数据 流 进行 “加 扰 ” 和 “ 解 扰 ” 操 作 。 在 
串 行 链 路 上 进行 数据 传递 时 ， 如 果 在 字符 流 中 存在 某 些 规律 ， 这 些 “ 规 律 ” 将 会 个 加 ， 并 
产生 较 大 的 EMI (Electromagnetic interference) 噪声 。 

Scrambler 部 件 的 主要 作用 就 是 通过 “加 扰 ” 的 方法 削减 EMI 噪声 ， 所 谓 加 扰 是 指 将 源 
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数据 流 与 一 个 随机 序列 进行 异 或 操作 后 ， 再 发 送出 去 。 此 时 被 发 送出 的 数据 流 也 基本 是 伪 随 
机 的 ， 从 而 降低 了 发 送 数据 时 产生 的 EMI 噪声 。 

PCIe 总 线 通过 一 个 16 位 线性 反馈 移 位 寄存 器 (Linear Feedback Shift Register，LFSR ) ， 
产生 伪 随 机 序列 ， 该 移 位 寄存 器 的 表达 式 如 公式 7-2 所 示 。 

G(x) = 和 + 和 + 和 + 和 +1 (7-2) 

该 公式 是 一 个 本 原 多 项 式 ， 使 用 该 本 原 多 项 式 可 以 产生 一 个 周期 为 2* -1 (这 个 周期 是 
16 位 移 位 寄存 器 能 够 产生 的 最 大 周期 ) 的 伪 随 机 序列 。 所 谓 本 原 多 项 式 是 “具有 最 大 周 
期 ”的 不 可 约 多 项 式 。 对 应 的 ， 由 本 原 多 项 式 作为 生成 多 项 式 所 产生 的 LFSR 序列 为 最 大 周 
期 序列 。 这 些 序列 一 般 被 称 为 m -序列 , 在 m -序列 中 “0” 和 “1” 所 占 的 比例 相对 均衡 ， 
但 是 1 的 个 数 比 0 的 个 数 多 1， 因 为 全 0 不 能 作为 初始 值 ， 也 不 可 能 是 中 间 状 态 。 

来 自 Byte Stripping 部 件 的 字符 流 与 这 个 伪 随 机 序列 中 的 字符 流 进行 异 或 操作 ， 从 而 生 
成 一 个 相对 较为 随机 的 字符 流 ， 从 而 降低 了 数据 流 的 EMI 噪声 。 

De-Scrambler 部 件 的 主要 作用 是 进行 解 扰 。 值 得 注意 的 是 ， 在 PCIe 链 路 的 两 端 ， 加 扰 和 
解 扰 使 用 的 编 解码 公式 相同 ， 而 且 完 全 同步 ， 即 LFSR 使 用 相同 的 初始 值 ， 在 PCIe 链 路 的 
两 端 ， 该 初始 值 为 0xFFFF。PCIe 链 路 两 端 设 备 每 次 加 解 扰 一 个 8b 数据 后 ，LFSR 进行 8 次 
移 位 操作 。 在 PCIe 总 线 中 ， 数 据 在 发 送 时 ， 首 先 经 过 “加 扰 ” 操 作 ， 然 后 进入 8/10b 编码 
模块 ; 而 接收 数据 时 ， 首 先 经 过 8/10b 解码 模块 ， 然 后 进行 “ 解 扰 ”操作 。 


7.3.3 ”8/10b 编码 与 解码 


IBM 于 1983 年 提出 8/10b 编码 方法 ， 这 个 编码 方法 也 是 IBM 的 专利 。 目 前 这 个 专利 已 
经 过 期 ， 以 太 网 、ATM 、Infiniband 和 FC (Fiber Channel) 在 物理 链 路 的 数据 传送 中 也 使 用 
了 8/10b 编码 技术 。8/10b 编码 是 高 速 串 行 总 线 常用 的 编码 方式 。 

该 编码 将 8 位 编码 转化 为 10 位 ， 以 平衡 数据 流 中 0 与 1 的 数量 。 使 用 这 种 方法 可 以 保 
证 数据 流 中 1 和 0 的 数量 相等 ， 即 保证 直流 平衡 (DC Balance) 。 如 果 在 一 个 高 速 串 行 数据 
流 中 有 较 多 连续 的 “1” 时 ， 会 将 AC 耦合 电容 充满 ， 从 而 影响 这 些 电容 的 正常 工作 ,在 
PCle 链 路 上 ，AcC 耦合 电容 的 位 置 如 图 4-1 所 示 。 

PCIe V1.x 和 2. x 规范 使 用 了 8/10b 编码 方式 ， 而 V3. 0 规范 将 使 用 128/130b 编码 方式 。 
128/130b 编码 方式 与 8/10b 编码 方式 原理 较为 类 似 ， 使 用 128/130b 编码 可 以 进一步 提高 
PCIe 总 线 的 利用 率 ， 但 是 需要 更 多 的 硬件 资源 。 本 节 仅 介绍 8/10b 编 解码 方式 。 在 PCIe 总 
线 中 ， 编 码 与 解码 的 过 程 如 图 7-14 所 示 。 

8/10b 编码 的 基本 原理 是 将 一 个 连续 的 8 位 数据 流 分 为 两 组 ， 其 中 一 组 由 3 位 (FGH ) 
组 成 ， 而 男 一 组 由 5 位 (ABCDE) 组 成 。8/10b 编码 将 这 两 组 数据 流 分 别 编码 成 一 组 4 位 
(fghj) 和 一 组 6 位 (abcdei) 的 数据 流 。 而 解码 过 程 是 编码 的 逆 过 程 ， 将 一 组 4 位 和 一 组 6 
位 的 数据 流 还 原 成 为 一 组 3 位 和 一 组 5 位 的 数据 流 。 

PCIe 设备 采用 这 种 编码 方式 可 以 保证 数据 流 中 出 现 的 0 和 1 的 数量 基本 保持 一 致 ， 同 
时 保证 在 通过 PCIe 物理 链 路 的 数据 流 中 ， 连 续 的 “1” 和 “0” 不 会 超过 5 个 。 虽然 采用 8/ 
10b 编码 将 降低 总 线 的 使 用 效率 ， 但 是 能 够 保证 高 速 串 行 信号 的 传送 完整 性 。 

如 图 7-13 所 示 ， 物 理 层 可 以 对 两 类 字符 进行 8/10b 编码 ， 一 类 是 数据 字符 ， 即 从 
数据 链 路 层 获得 的 TLP 和 DLLP; 一 类 是 物理 层 使 用 的 控制 字符 ， 如 Start/ End/Idle Code 
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和 一 些 物理 层 中 使 用 的 PLP。 为 此 PCIe 总 线 在 进行 8/10b 编 解 码 需 要 区 分 数据 和 控制 


7 人 


子 付 。 
Transmit Receive 
TX<7:0>, Control<Z> RX<7:0>, Control<Z> 
MSB ' LSB MSB 人 LSB 
[ 761514[1312111o| 76151413|121o| 
' 
H, G, F, E, D, C, B, A,Z H, G, F, E, D, C, B, A,Z 
| 人 
ET 
' 
j,h, g,f,i, e, dcb,a j,h, g,f,i,e, d, c, b,a 
| 人 
MSB LSB MSB LSB 


1 918|71615141312111o0 1 918|71615141312111o0 


图 7-14 8Z10b 编 解码 过 程 


数据 字符 与 控制 字符 使 用 的 8/10b 编码 不 同 ，PCIe 总 线 分 别 使 用 Dxx. y 和 Kxx. y 表示 数 
据 字 符 (D) 和 控制 字符 (K) ， 其 中 xx 记录 字符 的 低 5 位 ABCDE， 而 y 记录 字符 的 高 3 
位 FGH。 

值得 注意 的 是 ，PCIe 总 线 使 用 8/10b 编码 可 以 保证 每 十 位 中 ,最 多 有 6 个 1 或 者 6 个 
0， 而 不 是 传统 8/10b 编码 中 要 求 的 “不 超过 5 个 连续 的 0 或 者 1”。 使 用 这 种 方法 基本 上 可 
以 保证 数据 流 的 DC 平衡 。 但 是 使 用 这 种 编码 方式 无 法 保证 在 某 些 特殊 情况 中 ， 连 续 发 送 的 
数据 流 中 都 含有 “6 个 1, 4 个 0” 或 者 “6 个 0, 4 个 1”。 随 着 时 间 的 累积 ， 这 些 数据 流 依 
然 会 在 链 路 中 造成 严重 的 DC 失衡 。 

为 此 PCIe 总 线 使 用 CRD (Current Running Disparity) 技术 进一步 保证 PCIe 链 路 的 DC 
平衡 。PCIe 总 线 在 进行 8/10b 编码 时 ， 每 一 个 Dxx. y 和 Kxx. y 对 应 两 个 10b 的 编码 ， 分 别 是 
CRD + 和 CRD - 。 对 于 多 数 编码 ，CRD -和 CRD + 中 含有 的 “0” 和 “1” 的 个 数 相 同 ， 如 
D1.0、D2. 0 等 数据 字符 。 但 是 在 有 些 CRD + 编码 中 , “1” 的 个 数 小 于 “0” 的 个 数 ; 而 在 
CRD - 编码 中 “0” 的 个 数 大 于 “1” 的 个 数 ， 如 D1.1 和 D2. 1 的 编码 。 

在 CRD + 编码 中 , “1” 的 个 数 小 于 或 者 等 于 “0” 的 个 数 ; 在 CRD - 编码 中 ,，“0” 的 
个 数 小 于 或 者 等 于 “1” 的 个 数 。 值 得 注意 的 是 ，CRD + 和 CRD - 编码 并 不 是 直接 取 反 的 关 
系 ， 当 CRD 编码 的 “0” 的 个 数 与 “1” 的 个 数 相同 时 ，CRD + 与 CRD -的 编码 有 时 是 相同 
的 ， 如 D3.5 的 编码 。 

下 文 以 一 个 数据 发 送 的 实例 说 明 CRD + 、CRD - 编码 的 使 用 。 在 PCIe 链 路 的 发 送 端 中 ， 
存在 一 个 CRD 状态 位 ， 其 初始 值 可 以 为 “ 正 ” 或 者 “ 负 ”。 随 着 通过 PCIe 链 路 的 数据 流 增 
多 ， 累积 的 “1” 和 “0” 的 个 数 可 能 并 不 平衡 。 当 所 有 通过 PCIe 链 路 的 字符 流 中 ,“1” 的 
个 数 大 于 “0” 的 个 数 时 ，CRD 状态 为 正 ; 当 所 有 通过 PCIe 链 路 的 字符 流 中 , “0” 的 个 数 
大 于 “1” 的 个 数 时 ，CRD 状态 为 负 ; 当 所 有 通过 PCIe 链 路 的 字符 “0” 的 个 数 等 于 “1” 
的 个 数 时 ，CRD 状态 保持 不 变 。 
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当 CRD 状态 为 正 时 ，PCIe 链 路 进行 8/10b 编码 时 使 用 CRD + ， 否 则 使 用 CRD - 以 
维持 PCIe 链 路 的 DC 均衡 。 在 PCIe 总 线 中 ， 数 据 字符 使 用 的 8/10b 编码 的 格式 如 表 


7-5 所 示 。 
表 7-5 数据 字符 的 8/10b 编码 
数据 字符 Data Byte HGF EDCBA CRD - abcdei fghi CRD + abcdei fghi 
D0.0 0x00 000 00000 100111 0100 011000 1011 
D1.0 0x01 000 00001 011101 0100 100010 1011 
D2.0 0x02 000 00010 101101 0100 010010 1011 
D3.0 0x03 000 00011 110001 1011 110001 0100 
D4.0 0x04 000 00100 110101 0100 001010 1011 
D5.0 0x05 000 00101 101001 1011 101001 0100 
D6.0 0x06 000 00110 011001 1011 011001 0100 
D7.0 0x07 000 00111 111000 1011 000111 0100 
D1.1 0x21 001 00001 011101 1001 100010 1001 
D2.1 0x22 001 00010 101101 1001 010010 1001 
D3.1 0x23 001 00011 110001 1001 110001 1001 
D3.5 OxA3 101 00011 110001 1010 110001 1010 
D23.7 0xF7 111 10111 111010 0001 000101 1110 
D24.7 OxF8 111 11000 110011 0001 001100 1110 
D25.7 OxF9 111 11001 100110 1110 100110 0001 
D26.7 0xFA 111 11010 010110 1110 010110 0001 
D27.7 OxFB 111 11011 110110 0001 001001 1110 
D28.7 OxFC 111 11100 001110 1110 001110 0001 
D29.7 0xFD 111 11101 101110 0001 010001 1110 
D30.7 OxFE 111 11110 011110 0001 100001 1110 
D31.7 OxFF 111 11111 101011 0001 010100 1110 


PCle 总 线 还 定义 了 一 系列 控制 字符 ,这些 字符 从 “Data Byte” 的 角度 来 看 和 数据 字符 
完全 相同 ,但 是 使 用 的 CRD + 和 CRD - 编码 和 数据 字符 不 同 。 如 数据 字符 D30.7 和 K30.7 
所 对 应 的 “Data Byte” 都 为 0xFE (111 11110), 但 是 CRD - 编码 分 别 为 011110 0001 和 
011110 1000， 而 CRD + 编码 为 100001 1110 和 100001 0111。 

控制 字符 使 用 的 8/10b 编码 的 格式 如 表 7-6 所 示 。PCIe 总 线 使 用 这 些 字符 编码 作为 控 
制 命令 ， 和 数据 进行 区 别 。 
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表 7-6 


控制 字符 的 8/10b 编码 


数据 字符 Data Byte HGF EDCBA CRD - abcdei fghi CRD + abcdei fghi 
K28.0 0x1C 000 11100 001111 0100 110000 1011 
K28. 1 0x3C 001 11100 001111 1001 110000 0110 
K28. 2 0x5C 010 11100 001111 0101 110000 1010 
K28.3 0x7C 011 11100 001111 0011 110000 1100 
K28. 4 0x9C 100 11100 001111 0010 110000 1101 
K28.5 0xBC 101 11100 001111 1010 110000 0101 
K28.6 0xDC 110 11100 001111 0110 110000 1001 
K28.7 OxFC 111 11100 001111 1000 110000 0111 
K23.7 OxF7 111 10111 111010 1000 000101 0111 
K27.7 OxFB 111 11011 110110 1000 001001 0111 
K29.7 0xFD 111 11101 101110 1000 010001 0111 
K30.7 OxFE 111 11110 011110 1000 100001 0111 


这 些 控 制 字符 在 PCle 总 线 中 的 定义 如 表 7-7 所 示 。 


表 7-7 控制 字符 的 说 明 
数据 字符 缩写 符 号 名 说 明 
Re sip skip 用 于 补偿 PCIe 链 路 不 同 Lane 的 延 时 ， PCle 总 线 的 物 
理 层 收 到 该 控制 序列 时 ，LFSR 不 进行 移 位 操作 
K28. 1 FTS FTS (Fast Training Sequence) 在 链 路 训练 的 FTS 序列 中 使 用 
K28.2 SDP Start DLLP DLLP 的 起 始 标记 
K28.3 IDL Idle 在 EIOS (Electrical Idle OrderedSet) 序列 中 使 用 
K28.4 保留 
K28.5 COM Comma 复位 PCIe 链 路 的 LFSR 为 初始 值 
K28.6 保留 
K28.7 EIE Electrical Idle Exit 在 EIEOS (Electrical Idle Exit Sequence) 序列 中 使 用 
K23.7 PAD Pad 填充 字符 
K27.7 STP Start TLP TLP 的 起 始 标志 
K29.7 END End TLP 和 DLLP 的 结束 标志 
K30.7 EDB EnD Bad 无 效 TLP 的 结束 标志 


下 文 以 物理 层 发 送 一 个 TLP 的 实例 说 明 , PCIe 链 路 如 何 使 用 这 些 编码 。 一 个 TLP 在 通 
过 物理 层 时 ， 首 先 要 加 入 物理 层 的 前 后 级 ,分 别 为 STP 和 END。 加 入 这 些 前 后 级 后 的 TLP 
报 文 格式 如 图 7-15 所 示 。 


TLP Head Data Payload TLP Digest(Optional) LCRC END 


链 路 层 前 级 


TLP 


图 7-15 ”物理 层 TLP 的 格式 


链 路 层 后 级 
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TLP 在 通过 物理 层 时 首先 在 其 前 后 加 入 STP 和 END 控制 字符 ， 这 两 个 控制 字符 分 别 为 
K27.7 和 K29.7 (如 表 7-7 所 示 ) ， 它 们 通过 物理 层 时 ， 不 需要 进行 加 接 扰 操作 。 数 据 链 路 
层 前 级 、TLP 和 数据 链 路 层 后 绥 都 属于 数据 字符 ， 这 些 字符 在 通过 物理 层 时 需要 进行 加 接 扰 
操作 ， 之 后 从 表 7-5 中 获得 字符 流 ， 并 由 物理 层 发 问 PCIe 链 路 。 

值得 注意 的 是 ， 控 制 字 符 和 数据 字符 需要 根据 物理 层 CRD 状态 ,决定 是 使 用 CRD + 还 
是 CRD - 编码 。PCIe 链 路 的 两 端 在 进行 加 解 扰 操作 时 ， 需 要 保证 其 使 用 的 LFSR 寄存 器 同 
步 。LFSR 寄存 器 的 同步 由 控制 字符 COM 决定 ， 在 初始 复位 时 LFSR 寄存 器 的 初始 值 为 
0xFFFF， 当 收 到 控制 字符 COM 后 ， 物 理 层 将 LFSR 寄存 器 的 初始 值 置 为 0xFFFF， 此 外 物理 
层 收 到 控制 字符 SKP 后 ， 并 不 会 对 LFSR 寄存 需 进 行 移 位 操作 。 


7.4 小 结 


本 章 重点 介绍 了 数据 链 路 层 的 状态 ， 以 及 ACK/NAK 协议 ， 并 简要 介绍 了 PCIe 总 线 的 
物理 层 。 其 中 PCIe 总 线 的 物理 层 非常 重要 ,深入 理解 物理 层 是 深入 理解 PCle 体系 结构 的 要 
点 。 在 第 8 章 讲述 的 内 容 以 此 为 基础 。 
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第 8 瘟 PCIe 总 线 的 链 路 训练 与 电源 管理 


PCIe 链 路 的 初始 化 过 程 较为 复杂 。PCIe 总 线 进行 链 路 训练 时 将 初始 化 PCIe 设备 的 物理 
层 、 发 送 接收 模块 和 相关 的 链 路 状态 信息 ， 当 链 路 训练 成 功 结束 后 ，PCle 链 路 两 端的 设备 
可 以 进行 正常 的 数据 交换 。 
链 路 训练 的 过 程 由 硬件 逻辑 完成 ， 而 无 需 系 统 软件 的 参与 。 此 外 当 PCle 设备 从 低 功 耗 
状态 返回 到 正常 工作 模式 时 ， 或 者 PCle 链 路 出 现 某 些 错误 时 ，PCIe 链 路 也 需要 重新 进行 链 
路 训练 。 


8. 1 PCle 链 路 训练 简介 


PCIe 总 线 进行 链 路 训练 的 主要 目的 是 初始 化 PCIe 链 路 的 物理 层 、 端 口 配置 信息 、 相 应 
的 链 路 状态 ， 并 了 解 链 路 对 端的 拓扑 结构 ， 以 便 PCIe 链 路 两 端的 设备 进行 数据 通信 。 一 条 
PCIe 总 线 提供 的 链 路 带宽 可 以 是 x1、x2、x4、x8、x12 或 者 x16, 但 是 在 这 个 PCIe 链 
路 上 所 挂 接 的 PCIe 设备 并 不 会 完全 使 用 这 些 链 路 。 如 一 个 x4 的 PCIe 设备 可 能 会 连接 到 x 
16 的 PCIe 链 路 上 。 此 时 该 PCIe 设备 在 进行 链 路 训练 时 ， 必 须 通知 对 端 链 路 该 设备 实际 使 用 
的 链 路 状态 。 

此 外 PCIe 总 线 规定 ，PCIe 链 路 两 端的 设备 所 使 用 的 Lane 可 以 错 序 进 行 连接 ，PCIe 总 
线 规范 将 该 功能 称 为 “Lane Reversal”。 在 相同 的 Lane 上 ， 差 分 信号 的 极 型 也 可 以 错 序 连 
接 ，PCle 总 线 规范 将 该 功能 称 为 Polarity Inversion。 这 两 种 错 序 连接 方式 如 图 8-1 所 示 。 


Device A 
0 1 2 3 


0 1 2 
Device B 


正常 连接 Lane Reversal Polarity Inversion 


图 8-1 PCIe 设备 的 错 序 连接 


PCle 总 线 提供 这 些 连 接 方式 的 主要 目的 是 为 了 方便 PCB 走 线 ， 因 为 差分 信号 要 求 在 
PCB 中 等 长 而 且 等 距 。 在 一 个 系统 中 ， 如 果 存 在 多 路 差分 信号 时 ，PCB 布线 较为 困难 。PCIe 
链 路 允许 “Lane Reversal” 和 “Polarity Inversion” 这 两 个 功能 ， 便 于 PCB Layout 工程 师 根据 
实际 情况 为 差分 信号 选择 更 为 合理 的 走 线路 径 ， 从 而 降低 PCB 的 层 数 。 除 了 PCIe 链 路 ， 还 
有 许多 使 用 差分 信号 的 串 行 总 线 也 支持 “Lane Reversal” 和 “Polarity Inversion” 这 两 个 功 
能 ， 但 是 称呼 上 有 所 区 别 。 在 一 条 PCIe 链 路 中 ， 可 以 同时 支持 “Lane Reversal” 和 “Polari- 
ty Inversion” 这 两 个 功能 。 
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PCIe 链 路 进行 链 路 训练 时 ， 需 要 了 解 PCIe 链 路 两 端的 连接 拓扑 结构 。 一 条 PCI 链 路 可 
能 使 用 多 个 Lane 进行 数据 交换 ， 而 数据 报 文 经 过 不 同 Lane 的 延 时 并 不 完全 相同 。PCIe 总 线 
进行 链 路 训练 时 ， 需 要 处 理 这 些 不 同 Lane 的 延 时 差异 ， 并 进行 补偿 。PCIe 总 线 规范 将 这 个 
过 程 称 为 De-skew。 

此 外 PCle 总 线 在 链 路 训练 过 程 中 ， 还 需要 确定 数据 传送 率 。PCIe V1. x 总 线 使 用 的 数据 
传送 率 为 2. SGT/s，PCIe V2. 0 总 线 使 用 5.0GT/s， 而 PCIe V3. 0 总 线 使 用 8GT《s 的 数据 传送 
率 。 当 分 属 不 同 规范 的 PCle 设备 使 用 同一 个 PCIe 链 路 进行 连接 时 ， 需 要 统一 数据 传送 率 。 
如 一 个 Vl. x 的 PCIe 设备 与 一 个 V2.0 的 RC 或 者 Switch 连接 时 ， 需 要 将 数据 传送 率 统 一 为 
2. 5GT/s。 在 PCIe 总 线 中 ， 如 果 一 个 PCIe 链 路 的 两 端 分 别 连接 不 同类 型 的 PCIe 设备 时 ， 将 
选择 较 低 的 数据 传送 率 。 值 得 注意 的 是 ，PCIe 链 路 在 进行 初始 化 时 ， 首 先 使 用 2.5GT/s 的 
数据 传送 率 ， 之 后 切换 到 更 高 的 数据 传送 率 ， 如 5GT/s 或 者 8GT/s。 

在 讲述 PCIe 链 路 训练 之 前 ， 读 者 需要 了 解 一 些 与 Link Number 和 Lane Number 相关 的 基 
本 概念 。 在 多 端口 RC 和 Switch 中 具有 多 个 下 游 端 口 ， 而 每 个 端口 可 以 支持 x1、x2、x4 
等 不 同 宽度 的 Lane， 如 图 8-2 所 示 。 


Xb 


Upstream 链 路 
x8 


Virtual 
P2P 
Bridge 


Link Number 1 Link Number 2 
一 一 


Lane Number 0~3 所 二 一 


Downstream 链 路 Wa 


3、 Lane Number 0~3 


图 8-2 Link Number 和 Lane Number 


在 一 个 Switch 中 存在 多 个 下 游 链 路 ， 并 使 用 0 ~n 进行 编号 ， 其 中 n<255。 这 些 编号 保 
存在 Switch 的 硬件 逻辑 中 ， 而 不 在 Switch 的 配置 空间 中 。 这 个 编号 也 被 称 为 Link Number， 
上 图 所 示 的 Switch 中 含有 两 个 Link Number， 分 别 为 1 和 2。 

在 Switch 中 ,还 有 两 类 Lane Number， 分 别 是 物理 “Lane Number” 和 逻辑 “Lane Num- 
ber”。 其 中 物理 “Lane Number” 是 链 路 训练 之 前 使 用 的 Lane number。 一 个 PCIe 链 路 的 物 
理 “Lane Number” 编 号 为 0 ~n， 其 中 为 PCle 链 路 的 最 大 Lane Number， 如 果 一 个 PCIe 链 
路 上 有 8 个 Lane， 则 na 等 于 7。 

而 逻辑 “Lane Number” 是 链 路 训练 结束 后 使 用 的 Lane Number。 如 图 8-1 左 图 所 示 ， 
PCIe 链 路 允许 错 序 连接 ， 因 此 物理 “Lane Number” 与 逻辑 “Lane Number” 并 不 相同 。 物 
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理 “Lane Number” 与 逻辑 “Lane Number” 的 对 应 关系 在 链 路 训练 中 确定 。 

除 此 之 外 ， 有 些 Switeh 文 持 多 种 链 路 配置 方式 ， 假 设 某 个 Switch 的 下 游 文 持 8 个 Lane。 
这 8 个 Lane 可 以 组 成 1 个 PCIe 链 路 ， 其 链 路 宽度 为 8; 也 可 以 组 成 2 个 PCle 链 路 ， 每 个 链 
路 宽度 为 4; 也 可 以 组 成 4 个 链 路 ， 每 个 链 路 宽度 为 2。 

该 Switch 的 物理 Lane Number 的 编号 方法 不 变 ， 都 是 从 0 ~7, 但 是 逻辑 Lane Number 的 
编号 方法 将 有 所 区 别 。 如 图 8-2 所 示 的 Switch 中 具有 8 个 Lane， 组 成 两 个 PCIe 链 路 ， 其 中 
每 条 PCIe 链 路 的 逻辑 Lane Number 的 编号 都 为 0 ~3。 

PCIe 总 线 进 行 链 路 训练 时 ， 需 要 进行 RC 或 者 Switch 的 Link Number 和 Lane Number 的 
初始 化 ,在 第 8. 2 节 中 将 详细 介绍 这 些 内 容 。 

PCle 总 线 进 行 数据 传递 时 ， 需 要 使 用 时 钟 进行 同步 ， 但 是 PCIe 链 路 并 没有 提供 这 个 时 
钟 信号 ， 因 此 在 进行 链 路 训练 时 ， 接 收 端 需 要 从 发 送 端的 数据 报 文中 提取 接收 时 钟 。PCle 
总 线 规范 将 这 个 获得 接收 时 钟 的 过 程 称 为 “Bit Lock”。 

在 链 路 训练 过 程 中 ，PCle 链 路 需要 首先 确定 COM 字符 ， 该 字符 也 标志 着 链 路 训练 或 者 
链 路 重 训练 的 开始 ，PCIe 总 线 规范 将 确定 COM 字符 的 过 程 称 为 “Symbol Lock”。 如 表 7-6 
所 示 ，COM 字符 为 “001111 1010” 或 者 “110000 0101”， 该 字符 为 2 个 “0” 后 5 个 “1” 
或 者 2 个 “1” 后 5 个 “0”,， 非常 便于 硬件 识别 。Bit Lock 和 Symbol Lock 的 过 程 也 需要 在 
PCle 总 线 的 链 路 训练 中 进行 。 


8.1.1 链 路 训练 使 用 的 字符 序列 


PCIe 总 线 进 行 链 路 训练 时 ， 需 要 发 送 一 些 特 殊 的 字符 序列 ( Ordered-Sets)， 这 些 Oder- 
er-Sets 将 在 下 文中 详细 介绍 ，PCIe 总 线 规范 定义 了 以 下 几 类 Ordered-Sets。 有 的 书籍 也 将 这 
些 Ordered-Sets 称 为 PLP， 即 物理 层 报 文 。 
e Training Sequence 1 和 2， 简 称 为 TS1 和 TS2 序列 。 这 两 种 PLP 在 链 路 训练 的 多 个 状态 
机 中 使 用 ， 下 文 将 进一步 介绍 这 两 种 字符 序列 。 

e Idle 序列 。 在 正常 情况 下 ， 发 送 端 进入 Electrical Idle 状态 时 ， 将 首先 向 对 端 发 送 若 干 
Idle 序列 ， 才 能 进入 。PElecetrical Idle 状态 是 PCIe 链 路 的 一 个 低 功 耗 状态 ， 第 8. 1. 2 节 
将 详细 介绍 该 状态 。 

e Fast Training Sequence， 简 称 为 FTS。 该 字符 序列 协助 接收 逻辑 获得 Bit/ Symbol Lock ， 

接收 逻辑 需要 获得 多 个 FTS 后 ， 才 能 确定 Bit/Symbol Lock。 

e SKIP 序列 。 该 字符 序列 的 主要 作用 是 进行 时 钟 补偿 。 

在 PCIe 总 线 中 ,字符 序列 的 发 送 方 式 与 TLP 和 DLLP 有 和 较 大 不 同 。 假 设 一 条 PCIe 链 路 
由 多 个 Lane 组 成 ,那么 TLP 和 DLLP 报 文 将 分 散 到 多 个 Lane 中 。 而 字符 序列 必须 同时 出 现 
在 这 些 不 同 的 Lane， 这 几 个 Lane 必须 “在 同一 个 时 间 点 ”发 送 字符 序列 。 而 不 能 出 现 一 个 
Lane 正在 发 送 这 个 字符 序列 进行 与 链 路 训练 相关 的 操作 ， 而 其 他 Lane 进行 其 他 数据 传递 的 
情况 。PCle 链 路 发 送 TLP 与 发 送 字符 序列 的 过 程 如 图 8-3 所 示 。 

如 在 一 个 x4 的 PCIe 链 路 中 发 送 SKIP 序列 时 ， 每 一 个 Lane 中 都 要 出 现 “COM、SKP、 
SKP、SKP” 这 样 的 数据 流 。 其 他 字符 序列 的 发 送 方法 也 与 此 类 似 。 而 TLP 或 者 DLLP 的 发 
送 分 散 到 各 个 Lane 上 。 
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作用 


的 含 
D10. 


Lane 0 Lane 1 Lane 2 Lane 3 Lane 4 Lane 5 Lane6 Lane7 


| sn | TT | fT ST 


图 8-3 ”特殊 字符 序列 的 发 送 


1. TS1 和 TS2 序列 

在 物理 层 的 LTSSM 状态 机 中 ，TS1 和 TS2 序列 的 使 用 方法 不 同 。 其 中 TS1 序列 的 主要 
是 检测 PCIe 链 路 的 配置 信息 ， 而 TS2 序列 确认 TS1 序列 的 检测 结果 。 
TS1 和 TS2 序列 由 16 个 字符 组 成 ,单纯 从 结构 上 看 ，TS1 和 TS2 仅仅 是 第 6 ~ 15 个 字符 
义 不 同 , 但 是 这 两 个 序列 在 LTSSM 状态 机 中 的 使 用 方法 不 同 。TS1 的 第 6 ~ 15 个 字符 为 
2， 而 TS2 的 第 6 ~15 个 字符 为 D5.2， 其 中 D10.2 和 D5.2 也 是 TS1 和 TS2 的 标识 号 。 


TS1 和 TS2 序列 的 其 他 字符 如 下 所 示 。 
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。 第 0 字符 为 COM 控制 字符 ， 表 示 TS1ZTS2 序列 的 开始 。TS1ZTS2 字符 序列 将 复位 LF- 
SR 寄存 带 。 

。 在 链 路 训练 的 初始 阶段 ， 第 1 字符 存放 控制 字符 PAD ， 即 为 空 。 而 在 链 路 的 配置 阶 
段 ， 该 字符 存放 端口 使 用 的 Link Number。 

。 在 链 路 训练 的 初始 阶段 ， 第 2 字符 为 控制 字符 PAD ， 即 为 空 。 而 在 链 路 的 配置 阶段 ， 
该 字符 存放 端口 使 用 的 Lane Number。 

。 第 3 个 字符 为 FTS 序列 的 个 数 (N_FTS ) 。 不 同 的 PCIe 链 路 需要 使 用 不 同 数目 FTS 序 
列 ， 才 能 使 接收 端的 PLL 锁定 接收 时 钟 。 

。 第 4 个 字符 存放 当前 PCIe 设备 支持 的 数据 传送 率 ， 第 1 位 为 1 表示 支持 2. 5GT/s 传 
送 率 ; 第 2 位 为 1 表示 支持 5GT/s 传送 率 ; 第 3 位 为 1 表示 支持 8GT/s 的 数据 传送 率 
(在 PCIe V3.0 规范 中 使 用 ); 第 4~5 位 保留 ; 第 6 位 是 一 个 多 功能 位 ， 当 PCIe 链 路 
的 没有 配置 成 功 时 可 以 作为 Notification 位 ， 也 可 以 用 作 发 送 链 路 De-emphasis 的 使 能 
位 ; 第 7 位 为 speed_change 位 ， 当 该 位 为 1 时 ,通知 PCle 链 路 对 端 设备 需要 改变 传 

。 第 5 个 字符 存放 命令 。 第 0 位 为 “Hot Reset”， 第 1 位 为 “Disable Link”， 第 2 位 为 
“Loopback”， 第 3 位 为 “Disable Scrambling”， 第 4 位 为 “Compliance Receive”。 当 接 
收 逻 辑 RX 收 到 TS1 或 者 TS2 序列 后 ， 将 根据 该 字符 的 命令 进行 对 应 的 操作 。 


2. ldle 序列 

在 正常 情况 下 ， 当 发 送 端 进入 Electrical Idle 状态 之 前 ， 必 须 向 对 端 发 送 EIOS 序列 。 如 
果 PCIe 设备 使 用 2.5GT/s 的 传送 率 时 ，Idle 序列 由 1 个 COM 字符 加 3 个 IDL 字符 组 成 ， 即 
“COM IDL IDL IDL”; 如 果 PCIe 设备 使 用 5GT/s 的 传送 率 时 ，Idle 序列 由 两 组 这 样 的 字符 序 
列 组 成 ， 即 “COM IDL IDL IDL COM IDL IDL IDL”。Electrical Idle 状态 是 一 种 特殊 的 Idle 状 
态 ， 处 于 该 状态 时 ，PCIe 链 路 使 用 的 功 耗 最 低 ， 该 状态 的 详细 解释 见 第 8. 1. 2 节 。 

当 发 送 端 退出 IDLE 状态 时 ， 必 须 向 对 端 发 送 EIEOS 序列 。FIEOS 序列 仅 在 链 路 传送 率 大 于 
2.5GT 时 使 用 ， 该 序列 由 1 个 COM 字符 、14 个 EIE 字符 和 D10.2 (TS1 识别 符 ) 组 成 。 

PCIe 设备 可 以 根据 链 路 的 使 用 情况 确定 当前 链 路 是 否 处 于 Electrical Idle 状态 ， 而 不 是 
必须 收 到 Idle 序列 后 进入 该 状态 。 如 一 个 PCIe 设备 在 很 长 一 段 时 间 没 有 收 到 流量 控制 报 文 
或 者 链 路 处 于 Electrical Idle 状态 时 ， 也 可 以 推断 出 对 端 设 备 处 于 Idle 状态 。 

3，FTS 序列 

单个 FTS 序列 由 1 个 COM 字符 加 3 个 FTS 字符 组 成 ， 该 序列 的 主要 目的 是 使 接收 逻辑 
RX 重新 获得 Bit/Symbol Lock。 发 送 逻 辑 需 要 向 对 端 发 送 多 少 个 FTS 序列 由 接收 到 的 TS1/2 
序列 决定 ，TS172 序列 的 第 3 个 字符 为 需要 发 送 FTS 序列 的 个 数 。 

4.， SKIP 序列 

SKIP 序列 由 一 个 COM 字符 加 3 个 SKP 字符 组 成 。 物 理 层 提 供 SKIP 序列 的 主要 原因 是 
进行 时 钟 补偿 。 假 设 一 个 PCIe 设备 使 用 的 时 钟 频率 为 2.5GHz 上 +300ppm， 其 中 300ppm 意味 
着 这 个 时 钟 源 每 发 出 1 百 万 个 时 钟 可 能 产生 300 个 时 钟 漂移 ， 即 每 3333 个 时 钟 将 可 能 产生 
一 个 时 钟 漂移 。 如 果 PCIe 链 路 不 使 用 SKIP 序列 ， 本 地 时 钟 与 “从 报 文中 提取 ”的 时 钟 存 
在 的 漂移 ， 可 能 导致 数据 传送 失败 。 

在 PCle 设备 的 接收 逻辑 RX 中 ， 使 用 了 两 个 时 钟 ， 一 个 时 钟 是 通过 PLL 从 接收 报 文中 
恢复 的 时 钟 ， 另 一 个 时 钟 是 接收 逻辑 RX 使 用 的 本 地 时 钟 。 这 两 个 时 钟 间 的 关系 如 图 8-4 所 
示 。 值 得 注意 的 是 这 两 个 时 钟 并 不 完全 同步 。 


Device A Device B 


人 中 恢复 的 时 
本 地 时 钟 域 (Local Clock Domain) a 


PCIe 链 路 2 

从 报 文中 恢复 的 时 本 地 时 钟 域 (Local Clock Domain) 
钟 域 (Recoverd -一 

Clock Domain 和 


~ 


Elastic Buffers 
图 8-4 ”本 地 时 钟 域 与 从 报 文中 恢复 的 时 钟 域 
在 PCIe 总 线 中 ,使 用 Elastic Buffer? 技 术 处 理 这 两 个 时 钟 之 间 的 频率 差 和 相位 差 。Flas- 
tic Buffer 处 于 本 地 时 钟 域 与 “被 恢复 的 ”时 钟 域 之 间 ， 由 一 个 同步 FIFO 组 成 。 该 FIFO 的 
一 端 使 用 本 地 时 钟 域 、 而 男 一 端 使 用 “被 恢复 的 ”时 钟 域 。 其 中 本 地 时 钟 与 “被 恢复 的 ” 
时 钟 频率 都 为 2. 5GHz +300 ppm。 
但 是 如 果 PCIe 设备 从 数据 报 文中 恢复 的 时 钟 频率 为 2. 5GHz -300ppm， 而 本 地 时 钟 频率 


加 Elastic Buffer 也 被 称 为 Elasticity Buffer 或 者 Synchronization Buffer。 
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为 2.5 GHz +300 ppm 时 ，Elastic Buffer 两 端的 时 钟 频率 并 不 匹配 ， Elastic Buffer 将 出 现 Over- 
run 的 现象 ;而 如 果 本 地 时 钟 频率 小 于 “被 恢复 的 ”时 钟 时 ，Elastic Buffer 将 可 能 出 现 Un- 
derrun 的 现象 。 如 果 PCIe 总 线 不 采取 一 些 必要 的 补救 措施 ， 那 么 无 论 Elastic Buffer 的 容量 
有 多 么 大 ， 都 可 能 出 现 Overrun 和 Underrun 的 现象 。 

为 此 ，PCle 总 线 规定 ， 物 理 层 的 每 个 Lane 发 送 1180 ~ 1538 个 字符 之 后 ， 必 须发 送 一 个 
SKIP 序列 进行 时 钟 补偿 。 因 为 在 最 恶劣 的 情况 下 ， 接 收 逻 辑 RX 每 过 1667 个 时 钟 周期 ， 本 
地 时 钟 就 可 能 与 “被 恢复 的 ”时 钟 相差 一 个 时 钟 周期 ?。 在 PCIe 总 线 中 ， 当 Elastic Buffer 
收 到 SKIP 序列 时 ， 可 以 根据 自身 的 状态 选择 是 增加 还 是 减少 1 ~2 个 SKIP 序列 ， 从 而 补偿 
本 地 时 钟 与 “被 恢复 的 ”时 钟 之 间 的 频率 与 相位 差 。 

在 一 个 具体 的 实现 中 ， 可 以 通过 计算 ， 得 到 Elastic Buffer 不 出 现 Overrun 和 Underrun 所 
需要 的 最 小 尺寸 。 这 个 最 小 尺寸 与 SKP 序列 的 发 送 间隔 〈 多 少 个 时 钟 周 期 发 送 一 次 SKP 序 
列 ) ，Max_Payload_Size 参数 和 PCIe 链 路 的 数据 传送 率 相 关 。 对 此 有 兴趣 的 读者 可 以 参考 
Elastic Buffer Implementations in PCI Express Devices, 以 获得 详细 的 量化 分 析 结果 ， 本 节 对 此 
不 做 进一步 说 明 。 

Elastic Buffer 技术 由 来 已 久 ， 除了 PCIle 总 线 之 外 ， USB 总 线 、InfiniBand、Fibre Channel 
和 Gigabit Ethernet 中 也 使 用 该 技术 处 理 分 属 不 同时 钟 域 的 数据 传递 。 


8. 1. 2 Electrical Idle 状态 


当 发 送 端 或 者 接收 端 进 入 Electrical Idle 状态 后 ， 两 端的 发 送 逻 辑 TX 将 驱动 D+ 和 D- 信 
号 的 对 地 电压 为 相同 的 值 ， 其 值 等 于 DC 共 模 电压 (DC 共 模 电压 的 定义 见 第 7.3.1 节 )， 从 
而 使 发 送 逻 辑 TX 处 于 “最 低 功 耗 ” 状 态 。 

当 发 送 端 处 于 正常 工作 模式 时 ， D+ 和 D- 言 号 差 值 电压 的 峰 峰 值 为 V mx.piFF pp » 其 值 在 
0.8V ~1.2V 之 间 ， 而 当 发 送 端 处 于 Electrical Idle 状态 时 ，D + 和 D -信和 号 差 值 电压 的 峰 峰 
值 为 V rxIpLE.pIFF.pC . 其 值 在 0~5 mv 之 间 。 

由 此 可 以 发 现 当 发 送 端 处 于 Electrical Idle 状态 时 ， 在 示 波 需 中 显示 的 D+ 和 D -信号 的 
对 地 电压 基本 相等 ， 此 时 发 送 端 处 于 完全 “静止 ”状态 ， 在 发 送 逻 辑 TX 中 基本 没有 电流 通 
过 ， 因 此 从 理论 上 讲 处 于 “最 低 功 耗 ” 状 态 。 

在 正常 情况 下 ， 当 发 送 端 或 者 接收 端 进入 Electrical Idle 状态 之 前 ， 都 需要 使 用 发 送 逮 
辑 TX 向 对 端 发 送 和 若干 EIOS 序列 ， 之 后 才能 进入 该 状态 。 当 发 送 逻 辑 TX 处 于 Electrical Idle 
状态 时 ， 可 以 处 于 高 阻抗 或 者 低 阻抗 模式 ，PCIe 总 线 规范 对 此 并 没有 限制 。 而 接收 逻辑 RX 
处 于 Electrical Idle 状态 时 ， 其 DC 共 模 输入 阻抗 必须 在 PCle 总 线 规范 要 求 的 范围 内 。 

当 发 送 逻 辑 TX 进入 Electrical Idle 状态 后 ， 至 少 需 要 经 过 TTX-IDLE-MIN 这 段 时 间 延 时 
后 ， 才 允许 退出 该 状态 ， 因 为 对 端 接收 逻辑 RX 的 “Electrical Idle Exit detector” 部 件 从 启动 
到 正常 工作 的 时 间 延 时 为 TTX-IDLE-MIN。 如 果 在 “Electrical Idle Exit detector” 部 件 没 有 正 
常 工作 之 前 ， 发 送 逻 辑 TX 就 退出 Electrical Idle 状态 ， 对 端的 接收 逻辑 RX 将 不 能 检查 到 这 
个 状态 变化 ， 从 而 导致 错误 。 


因为 本 地 时 钟 与 “被 恢复 的 ”时 钟 间 可 能 相差 600 ppm。 
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发 送 逻 辑 TX 在 退出 Electrical Idle 状态 时 ， 必 须 在 Tivnaroneeos 时 间 范 围 内 ， 需 要 为 
D+ 和 D- 信 号 提供 正常 的 工作 伏 值 , D+ 和 D -信号 的 峰 峰 值 至 少 为 Vxorrm， 其 值 在 0.8 V 
~1.2V 之 间 。 而 对 端的 接收 逻辑 RX 发 现 其 Vi _jpigperprreos 的 值 小 于 75 mV 时 ， 将 不 会 退出 
Flectrical Idle 状态 ， 只 有 当 Vaxarsperpmm。 的 值 大 于 175 mV 时 ， 对 端的 接收 逻辑 RX 才 会 退出 
Electrical Idle 状态 

值得 注意 的 是 ， 发 送 逻 辑 TX 经 过 发 送 链 路 将 信号 传递 到 接收 逻辑 RX 时 ， 信 号 将 会 衰 
减 。 虽 然 发 送 逻 辑 TX 输出 的 VTX-DIFF-PP 在 0.8V~1.2V 之 间 , 但 是 接收 端 收 到 的 VRX- 
IDLE-DET-DIFFp-p， 其 最 小 值 可 能 只 有 175 mV 左右 。 

在 正常 情况 下 ， 接 收 逻 辑 RX 在 进入 到 Electrical Idle 状态 之 前 ， 需 要 收 到 发 送 逻 辑 TX 
提供 的 EIOS 序列 ， 但 是 有 时 接收 逻辑 RX 在 没有 收 到 EIOS 序列 时 ， 发 现 VRX-IDLE-DET- 
DIFFp-p 的 值 小 于 75 mv 时 ， 也 可 以 进入 Electrical Idle 状态 。PCIe 总 线 规 范 要 求 接收 逻辑 
RX 必须 在 10 ms 之 内 判断 出 当前 链 路 是 否 处 于 Electrical Idle 状态 。 

接收 逻辑 RX 除了 可 以 使 用 差分 电压 逻辑 ， 检 测 当 前 链 路 是 否 处 于 Electrical Idle 状态 之 
外 ， 还 可 以 通过 其 他 方式 推断 出 当前 链 路 是 否 处 于 Idle 状态 。 当 PCIe 链 路 处 于 不 同 的 状态 
时 ， 检 测 方 法 有 所 不 同 ， 如 表 8-1 所 示 。 值 得 注意 的 是 ， 这 种 推 断 出 的 Idle 状态 并 不 等 同 
于 Electrical Idle 状态 。 


表 8-1 接收 逻辑 RX 推断 当前 链 路 是 否 处 于 Idle 状态 


链 路 状态 2.5 GT/s 5.0 GT/s 


在 128 ks 之 内 ， 接 收 逻 辑 RX 没有 收 到 UpdateFC DLLP 或 者 SKP 序列 
时 ， 链 路 处 于 Electrical Idle 状态 


Recovery. RevrCfg 在 1280 个 UI 之 内 ， 接 收 逻 辑 RX 没有 收 到 TS1 或 者 TS2 序列 
Recovery. Speed 


在 1280 个 UI 内， 接收 逻辑 RX 没有 收 到 TS1 或 者 TS2 序列 


Successful_speed_negotiation = 1 


Recovery. Speed 在 2000 个 UI 之 内 ，PCle 链 路 没有 退 | 在 16000 个 UI 之 内 ，PCle 链 
Successful_speed_negotiation =0 出 Electrical Idle 状态 S 路 没有 退出 Electrical Idle 状态 
在 128 hs 之 PCIe 链 路 没有 退出 E- 
Loopback. active 在 hs 之 内 ， 。 链 路 没有 退出 N/A 


lectrical Idle 状态 


PCle 总 线 通 过 上 表 判 断 而 得 出 的 Idle 状态 称 为 Logical Idle 状态 。 在 该 表 中 出 现 的 链 路 
状态 ， 如 LO 、Loopback. active 等 ， 将 在 下 文 详细 解释 。Electrical Idle 状态 是 LTSSM 状态 机 
的 基础 。Electrical Idle 状态 是 PCle 链 路 的 相对 静止 状态 ， 使 用 的 功 耗 较 低 。 当 一 个 PCIe 设 
备 没 有 上 电 ， 处 于 复位 状态 或 某 些 低 功 耗 状态 时 ， 其 使 用 的 PCIe 链 路 将 处 于 Flectrical Idle 
状态 ， 读 者 需要 进一步 阅读 下 文 的 内 容 以 详细 了 解 Electrical Idle 状态 。 


8. 1.3 Receiver Detect 识别 逻辑 


Reciever Detect 识别 逻辑 的 主要 作用 是 检测 对 端的 接收 逻辑 RX 是 否 正 常 工作 ，Receiver 
Detect 识别 逻辑 是 发 送 逻 辑 TX 的 一 部 分 。PCIe 链 路 在 初始 状态 时 ， 需 要 检测 对 端 设备 是 


没有 退出 Electrical Idle 状态 指 接收 逻辑 V RX-IDLE-DET-DIFF, 的 值 小 于 75 mV。 
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存在 才能 进行 链 路 训练 。 Receiver Detect 识别 逻辑 的 实现 机 理 是 通过 检测 对 端 设备 接收 逻辑 
的 DC 共 模 输入 阻抗 ,来 判断 接收 端 是 否 存在 。 如 果 发 送 逻 辑 TX 发 现 其 负载 的 DC 阻抗 在 
Zaxnc 范 围 之 内 或 者 小 于 40 0 时， 认为 对 端的 接收 逻辑 RX 存在 。 

PCIe 总 线 规范 定义 了 接收 逻辑 RX 在 正常 工作 状态 下 的 DC 共 模 输入 阻抗 Zn、_vc。， 其 值 
在 40 ~60 0 范围 之 内 。 当 接收 逻辑 RX 的 V. 没 有 上 电 ，V,, 信号 或 者 V。_ 信 号 的 电压 伏 值 
大 于 0 时， 其 DC 共 模 输入 阻抗 ZNxmcnwppcpos 最 小 为 50 kQ; 当 Vy, 或 者 V。_ 小 于 0 时 ,其 
DC 共 模 输入 阻抗 Ziximeonivwepcnrc 最 小 为 1.0k0。 

由 此 可 见 当 对 端 接收 逻辑 RX 可 以 正常 工作 时 ,其 DC 共 模 输入 阻抗 远 小 于 “没有 上 
电 ” 时 的 状态 。 发 送 逻 辑 TX 通过 监控 Vw, 和 Vn _ 信号 的 电压 伏 值 ， 可 以 获得 接收 逻辑 在 正 
党 工作 状态 和 V.. 没 有 上 电 时 的 电流 曲线 ， 从 而 判断 接收 逻辑 RX 是 否 处 于 正常 工作 状态 。 
在 PCle 总 线 中 ， 发 送 逻 辑 TX 通过 “发 送 Detect 序列 ”判断 对 端 接收 逻辑 RX 是 否 存在 。 

PCle 总 线 发 送 “Detect 序列 ”的 原理 是 首先 提高 Vw, 和 V,_ 信 号 的 电压 伏 值 ， 然 后 通过 
判断 对 端 接收 逻辑 RX 的 阻抗 变化 ， 识 别 对 端的 接收 逻辑 RX 是 否 正常 工作 。 其 具体 实现 方 
法 如 下 所 示 。 

(1) 发 送 逻 辑 TX 在 提高 V, ,和 V，_ 信 号 的 电压 伏 值 之 前 ， 需 要 保持 Vb, 和 Vn_ 信和 号 的 
伏 值 为 一 个 恒定 的 DC 共 模 电压 值 。 

(2) 发 送 逻 辑 TX 暂时 提高 V, ,和 Vv 信和 号 的 电压 ， 但 是 其 值 不 能 超过 原来 共 模 电压 伏 
值 加 上 Vxncvperscr。 此 时 发 送 端 将 产生 一 个 脉冲 波形 至 接收 逻辑 RX。 这 个 脉冲 波形 将 穿越 
发 送 链 路 上 的 AC 耦合 电容 ， 最 后 到 达 接 收 逻 辑 RX。 因 为 接收 逻辑 RC 的 Zaxnc 较 小 ， 因 此 
Vacncvpargcrt 的 值 不 能 过 大 ， 否 则 将 在 接收 逻辑 RX 上 产生 过 大 的 电流 2 ， 从 而 可 能 损坏 接收 
逻辑 RX。PCle 总 线 规定 Vi nevparrcr 的 最 大 值 为 600 mV。 

(3) 发 送 逻 辑 TX 根据 V, ,和 V,_ 信 号 的 脉冲 波形 通过 接收 逻辑 RX 时 的 电流 曲线 ， 判 
断 接 收 逻 辑 RX 是 否 正常 工作 。 如 果 通 过 这 个 电流 曲线 ， 发 现 是 Zixnc 起 作用 ， 此 时 电流 强 
度 的 有 效 值 较 大 ， 表 示 接 收 逻 辑 RX 正常 工作 ; 如 果 发 现 是 Ziy jnonwmepcpos 起 作用 ， 此 时 电 
流 强 度 的 有 效 值 较 小 ， 表 示 接 收 逻 辑 RX 不 存在 或 者 没有 被 加 电 。 

值得 注意 的 是 ,在 PCle V2. x 规范 中 ， 并 没有 强行 规定 必须 在 Vh, 和 Vn_ 信号 上 都 进行 这 种 
Receiver Detect 测试 。 在 有 些 实现 上 ， 可 能 仅 使 用 V,, 或 者 Vn_ 信和 号 进行 这 种 Receiver Detect 测 
试 。 在 LTSSM 状态 机 中 ， 从 Detect 到 Polling 状态 的 切换 时 ， 需 要 使 用 Receiver Detect 识别 逻辑 。 


8.2 LTSSM 状态 机 


PCIe 总 线 在 进行 链 路 训练 时 ， 将 使 用 LTSSM 状态 机 。LTSSM 状态 机 由 “Detect”、“Pol- 
ling” “Configuration”、“Disabled”、“Hot Reset”、“Loopback”、“L0”、“LOs”、“L17”、 
“L2” 和 “Recovery” 共 11 个 状态 组 成 。 这 些 状态 分 别 与 PCle 总 线 的 链 路 训练 、 链 路 重 训 
练 、ASPM (Active State Power Management) 和 系统 软件 的 电源 管理 相关 。LTSSM 状态 机 的 
转换 逻辑 如 图 8-5 所 示 ， 而 各 个 状态 的 含义 如 下 所 示 。 


G@ 在 正常 情况 下 ， 接 收 逻 辑 RX 的 DC 共 模 电压 为 0，Zhxnc 虽 然 较 小 也 不 会 影响 其 正常 工作 。 
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图 8-5 LTSSM 示意 图 


Detect 状态 。 当 PCIe 链 路 被 复位 或 者 数据 链 路 层 通 过 填写 某 些 寄存 器 后 ，LTSSM 将 

进入 该 状态 。 该 状态 也 是 LTSSM 的 初始 状态 。 当 PCIe 链 路 处 于 该 状态 时 ， 发 送 逻 辑 

TX 并 不 知道 对 端 接收 逻辑 RX 的 存在 ， 因 此 需要 使 用 Receiver Detect 识别 逻辑 判断 对 

端 接收 逻辑 RX 是 否 可 以 正常 工作 ， 之 后 才能 进入 其 他 状态 。 

e Polling 状态 。 当 PCIe 链 路 进入 该 状态 时 ， 将 向 对 端 发 送 TS1 和 TS2 序列 ， 并 接收 对 

端的 TS1 和 TS2 序列 ， 以 确定 Bit/Symbol Lock 、Lane 的 极 性 。PCIe 链 路 处 于 该 状态 

时 ， 将 进行 Loopback 测试 ， 确 定 当前 使 用 的 PCIe 链 路 可 以 正常 工作 。 

Configuration 状态 。 当 PCIe 链 路 进入 该 状态 时 ， 将 确定 PCIe 链 路 的 宽度 、Link Number、 

Lane reversal 、Polarity inversion 和 Lane-to-Lane 的 延 时 。 该 状态 是 LTSSM 状态 机 最 重要 

的 状态 。 值 得 注意 的 是 PCIe 链 路 在 进行 初始 化 时 ， 链 路 两 端 统一 使 用 2. 5CTAs 的 数据 

传送 率 ， 直 到 进入 10 状态 。 

。10 状态 。PCIe 链 路 的 正常 工作 状态 。PCIe 链 路 可 以 正常 发 送 和 接收 TLP、DLLP 和 

PLP。PCIe 链 路 可 以 从 该 状态 进入 Recovery 状态 ， 以 改变 数据 传送 率 。 

Recovery 状态 。PCIe 链 路 需要 进行 链 路 重 训练 时 需要 进入 该 状态 。 该 状态 是 LTSSM 

状态 机 的 重要 状态 。 

。 L0s、L1 和 L2 状态 。PCIe 链 路 的 低 功 耗 状态 ， 其 中 PCIe 链 路 处 于 LOs 状态 时 ， 使 用 
的 功 耗 相对 较 高 ， 而 处 于 L2 状态 时 ， 使 用 的 功 耗 最 低 。 

。 Disabled 状态 。 系 统 软件 可 以 通过 设置 寄存 器 ， 使 PCle 链 路 进入 Disabled 状态 。 当 
PCIe 链 路 的 对 端 设备 被 拔 出 时 ，LTSSM 也 需要 进入 该 状态 。 

e Loopback 状态 。PCIe 链 路 进入 该 状态 时 ， 发 送 端口 将 转发 其 接收 端口 接收 到 的 数据 ， 
PCIe 测试 仪器 可 以 利用 该 状态 进行 数据 测试 。 

e Hot Reset 状态 。 当 处 理 吉 系统 进行 Hot Reset 操作 时 ，PCIe 链 路 将 进入 Recovery 状 
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态 ， 然 后 进入 Hot Reset 状态 进行 PCle 链 路 的 重 训练 。 

LTSSM 的 各 个 状态 将 在 下 文 详细 介绍 ， 本 章 将 重点 介绍 Detect、 Polling 、Configuration 、 
LO 和 Recovery 状态 ， 轩 于 篇 幅 并 不 对 Disabled 、Loopback 和 Hot Reset 状态 进行 详细 说 明 ， 
对 这 些 状态 有 兴趣 的 读者 可 以 参阅 PCIe 总 线 规范 ， 以 获得 进一步 信息 。 

PCIe 设备 的 物理 层 进行 复位 后 ，LTSSM 状态 机 首先 沿 着 “Detect” 一 “Polling” 一 
“ Configuration” — “10” 的 路 径 进 入 到 正常 工作 状态 “1L0” 这 也 是 链 路 训练 的 正常 工作 路 
径 ， 也 是 最 重要 的 一 条 路 径 。 

物理 层 链 路 训练 所 涉及 的 内 容 非常 复杂 。 为 便于 读者 理解 ， 本 书 仪 介绍 其 主要 工作 流 
程 ， 即 PCIe 设备 的 正常 工作 路 径 ， 以 帮助 读者 掌握 链 路 训练 的 概要 ， 而 不 会 介绍 异常 处 理 
和 一 些 并 不 重要 的 分 支 。 


8. 2.1 Detect 状态 


如 图 8-6 所 示 ，Detect 状态 由 Detect.Quiet 、Detect Acetive 两 个 子 状 态 组 成 。 该 状态 的 主 
要 功能 是 检测 PCIe 链 路 上 是 否 有 PCle 设备 存在 ， 如 果 存 在 ， 一 共 使 用 了 多 少 可 用 的 Lane 
资源 。 在 正常 情况 下 ，PCIle 链 路 将 从 Detect 状态 迁移 到 Polling 状态 。 


Entry 


Detect.Quiet 一 一 Detect.Active | Exit to Polling 


图 8-6 ”Detect 状态 机 


当 PCle 设备 进行 传统 复位 操作 2 后， 首先 进入 Detect Quiet 状态 。 在 多 数 情况 下 ， 如 果 
该 PCIe 设备 的 对 端 存在 设备 时 ，PCIe 链 路 的 两 端 将 同时 进入 Detect.Quiet 状态 。 为 PCIe 
链 路 的 两 端 可 能 同时 进行 复位 操作 。 

在 PCle 设备 进入 Detect.Quiet 状态 时 ， 其 发 送 罗 辑 TX 处 于 “了 Electrical Idle” 状 态 ， 此 
时 该 设备 发 送 链 路 的 D+ 和 D- 信号 的 电压 为 DC 共 模 电压 ， 且 为 相同 的 值 ， 此 时 发 送 逻 辑 
TX 使 用 的 功 耗 最 低 。 

值得 注意 的 是 ， 物 理 层 也 可 以 从 L2 、Loopback 、Disabled 、Polling 、Configuration 和 Re- 
covery 状态 进入 Detect. Quiet 状态 ， 此 时 发 送 逻 辑 TX 需要 发 送 必 要 的 Idle 序列 ， 通 知 对 端 
设备 的 接收 逻辑 RX， 然 后 经 过 一 段 延 时 后 才能 进入 “Electrical Idle” 状态 。 而 在 Detect 状 
态 中 ，PCIe 设备 的 发 送 逻 辑 TX 将 直接 进入 到 “Electrical Idle” 状态， 并 不 会 使 用 Idle 序列 
通知 对 端 设备 的 接收 逻辑 RX。 

当 PCle 设备 处 于 Detect.Quiet 状态 时 ， 缺 省 使 用 2. SGbys 的 数据 传送 率 ， 即 PCIe V1. x 
规定 的 数据 传送 率 ， 并 置 LinkUp、 upconfigure_capable” 等 状态 位 为 0， 此 时 数据 链 路 层 处 于 
DL_Inactive 状态 。 整 个 PCIe 链 路 处 于 “完全 静止 ”的 状态 。 

当 PCIe 设备 处 于 Detect.Quiet 状态 超过 12ms 之 后 ， 或 者 检测 到 PCIe 链 路 上 的 任何 一 个 


G 不 包括 FLR 方式 ， 因 为 该 复位 并 不 影响 LTSSM 状态 机 。 
外 upc onfigure_capable 状态 位 在 Configuration 状态 收 到 “Link Upconfigure Capability” 为 1 的 TS2 序列 后 将 设置 为 1， 
否则 为 0。 
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Lane 退出 “Electrical Idle” 状态 时 ,PCle 设备 将 进入 Detect.Active 状态 。 

PCIe 设备 进入 Detect.Active 状态 后 ， 其 发 送 逻 辑 TX 将 向 该 链 路 的 所 有 “未 配置 过 的 
Lane” 端 发 送 “Receiver Detection 序列 "2 ， 检 测 其 对 端的 接收 逻辑 RX 是 否 正常 工作 。 如 果 
所 有 Lane 的 接收 逻辑 RX 都 在 正常 工作 时 ，PCIe 设备 进入 到 Polling 状态 。 

如 果 没 有 一 个 Lane 的 接收 逻辑 RX 被 检测 到 ，PCIe 设备 将 进入 到 DetectQuiet 状态 ， 此 
时 可 能 PCIe 链 路 的 对 端 没 有 连接 PCIe 设备 ， 或 者 该 PCIe 设备 并 没有 正常 工作 。 

如 果 仅 有 部 分 Lane 正确 检测 到 对 端 接收 逻辑 RX 的 存在 ， 物 理 层 将 首先 等 待 12ms， 然 
后 使 用 该 链 路 的 所 有 “未 检测 成 功 过 的 Lane” 向 对 端 重新 发 送 “Receiver Detection 序列 ”， 
进一步 识别 可 用 的 Lane。 如 果 这 次 的 检测 结果 与 第 一 次 检测 结果 相同 ， 物 理 层 将 这 些 “ 不 
可 用 ”的 Lane 置 为 Electrical Idle 状态 ， 并 进入 Polling 状态 ， 如 果 两 次 结果 不 相同 ， 则 进入 
Detect.Quiet 状态 。 

这 些 被 标识 为 “Electrical Idle” 状态 的 Lane 将 不 会 被 LTSSM 状态 机 继续 使 用 。 有 时 
PCIe 链 路 的 两 端 虽然 都 连接 PCIe 设备 ,但 是 这 些 设备 不 一 定 利 用 了 PCIe 链 路 上 所 有 的 
Lane， 下 文 将 举例 说 明 Detect.Active 状态 的 运行 机 制 。 

假设 一 个 PCle 链 路 由 8 个 Lane 组 成 ， 其 上 游 端口 与 一 个 Switch 连接 ， 而 下 游 端 口 连接 
一 个 EP， 如 果 这 个 EP 仅 使 用 了 2 个 Lane。 那 么 第 一 次 PCIe 链 路 检测 结果 为 6 个 Lane 没有 
与 EP 进行 连接 ， 而 经 过 12ms 再 次 进行 检测 时 ， 可 能 还 检测 到 有 6 个 Lane 没有 与 EP 进行 
连接 ， 此 时 该 PCle 链 路 认为 EP 仅 使 用 了 2 个 Lane。 如 果 第 2 次 检查 发 现 有 7 个 或 者 5 个 
Lane 没有 与 EP 进行 连接 ， 说明 两 次 检测 结果 不 一 致 ， 此 时 PCIe 设备 将 要 退回 到 De- 
tect.Quiet 状态 ， 并 择 时 重新 进入 Detect.Active 状态 ， 重 新 进行 链 路 探测 。 

Detect 状态 是 PCIe 设备 进入 的 第 一 个 状态 ， 在 这 个 状态 中 ，PCle 设备 需要 识别 PCle 链 
路 的 拓扑 结构 。 在 这 个 状态 中 ， 物 理 层 使 用 的 检测 手段 都 是 基于 PCIe 链 路 的 物理 特性 ， 只 
有 PCIe 设备 发 现 PCIe 链 路 的 对 端 具 有 合法 设备 后 ， 才 能 进入 Polling 状态 。 


8. 2. 2 Polling 状态 


当 PCle 设备 在 Detect 状态 中 ,识别 完毕 当前 链 路 上 可 用 的 Lane 资源 之 后 ,将 进入 Pol- 
ling 状态 ，Polling 状态 由 Polling.Active、Polling.Compliance 和 Polling.Configuration 子 状态 组 
成 。PCIe 设备 可 以 从 Polling 状态 进入 到 Configuration 状态 ， 继续 进行 链 路 训练 ， 如 果 PCIe 
设备 在 Polling 状态 中 出 现 某 种 错误 时 ， 将 退回 到 Detect 状态 ， 重 新 进行 PCIe 链 路 的 训练 ， 
Polling 状态 机 的 转换 逻辑 如 图 8-7 所 示 。 

如 该 图 所 示 ，PCIe 设备 将 首先 进入 Polling.Active 状态 ， 然 后 进入 Polling. Configuration 
状态 ， 最 后 退出 到 Configuration 状态 。 

PCIe 设备 处 于 Polling. Active 状态 时 ， 首 先 检 查 Link Control 2 寄存 需 的 “Enter Compli- 
ance Bit” 人 位。 如 果 该 位 为 1，PCle 设备 将 进入 Polling.Compliance 状态 ， 值 得 注意 的 是 ， 
PCIe 链 路 两 端 设备 的 “Enter Compliance Bit” 需 要 被 同时 置 1， 即 PCle 链 路 两 端的 设备 需要 
同时 进入 到 Polling.Compliance 状态 。 本 节 对 Polling. Compliance 状态 不 做 进一步 描述 。 


”Receiver Dete ction 序列 的 发 送 方 法 见 第 8.1.3 节 。 


227 


Entry 


Polling.Compliance 


Polling.Active 


Polling.Configuration 


Exit to Configuration 


图 8-7 Polling 状态 机 


Exit to Detect 


如 果 “Enter Compliance Bit” 不 为 1， 则 PCIe 链 路 两 端 设备 的 发 送 逻 辑 TX 需要 向 对 
端 ? 至 少 发 送 1024 个 TS1 序列 ， 其 中 TS1 序列 的 Lane/Link Number 必须 为 “PAD”， 即 不 设 
置 Lane/Link Number。PCIe 设备 使 用 这 些 TS1 序列 ， 获 得 Bit/Symbol Lock ， 这 个 过 程 大 约 需 
要 64 ns。 值得 注意 的 是 ，PCIe 链 路 两 端 设 备 退 出 Detect 状态 时 ， 可 能 并 不 完全 同步 ， 因 此 
两 端 设 备 交 换 TS1 序列 的 过 程 也 并 不 完全 同步 。 

发 送 逻 辑 TX 在 发 送 TS1 序列 之 前 ,需要 保证 D+ 和 D -信号 的 DC 共 模 电压 恢复 到 正 
常 工作 值 。 因 为 发 送 逻 辑 TX 在 Detect 状态 进行 “Receiver Detect” 的 过 程 中 ， 曾 经 将 DC 共 
模 电 压 提高 了 Vancv_DErEcT o 

PCle 设备 在 发 送 1024 个 TS1 序列 ?的 同时 ， 如 果 其 接收 逻辑 RX 从 全 部 “已 被 正确 识 
别 的 Lane” 中 收 到 了 以 下 任意 一 种 8 个 连续 的 报 文 序列 后 ,该 PCle 设备 将 进入 Pol- 
ling. Configuration 状态 。 

(1) TS1 序列 9 ,其 Lane/Link Number 为 PAD, 而 “ Compliance Receive” 位 为 0。 

(2) TS1 序列 ， 其 Lane/Link Number 为 PAD， 而 “Loopback” 位 为 1 。 值 得 注意 的 是 ， 发 
送 逻 辑 TX 发 送 “Loopback” 位 为 1 的 TSl 序列 后 ，PCIe 链 路 对 端 设备 的 接收 逻辑 RX 将 收 到 该 
序列 ， 并 将 这 个 TS1 序列 使 用 内 部 Loopback 逻辑 直接 回 送 给 对 端 设 备 〈 并 不 是 该 设备 重新 生成 
的 TSI 序列 ) ， 之 后 对 端 疫 备 的 接收 逻辑 RX 将 接收 到 之 前 发 送 逻 辑 TX 发 送 的 TS1 序列 。 

(3) TS2 序列 ， 其 Lane/Link Number 为 PAD。PCIe 链 路 两 端 设备 进入 的 LTSSM 状态 机 
并 不 一 定 同步 ， 可 能 对 端 PCle 设备 可 能 已 经 进入 了 Polling. Configuration 状态 ， 此 时 该 设备 
将 向 对 端 发 送 TS2 序列 ， 详 见 下 文 。 

如 果 上 述 条 件 没 有 成 立 ，PCIe 设备 在 经 过 20ms 延 时 后 ， 判 断 下 列 条 件 。 如 果 这 些 条 件 
同时 成 立时 ，PCIe 设备 也 将 进入 Polling. Configuration 状态 。 


此 时 发 送 逻 辑 TX 使 用 在 Detect 状态 中 ， 已 经 正确 识别 的 Lane 发 送 这 些 TS1 序列 。 

这 些 TS1 序列 将 被 链 路 对 端 设 备 回 传 ， 因 为 此 时 TS1 序列 使 用 的 Loopback 位 为 1。 

由 于 PCIe 链 路 支持 Polarity Inversin， 因 此 也 可 能 收 到 TS1 序列 的 补 码 。 

PCIe 设备 不 可 能 从 Polling 状态 进入 Loopback 状态 ， 因 此 接收 逻辑 RX 收 到 Loopback 位 为 1 的 TS1 序列 并 不 会 进入 到 LTSSM 的 
Loopback 状态 。 


晶 0OO 
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(1) 任何 一 个 “已 被 正确 识别 的 Lane” 收 到 了 8 个 连续 的 TS1 序列 ， 其 中 Lane/Link 
Number 为 PAD， 而 “Compliance Receive” 位 为 0 或 者 “Loopback” 位 为 1; 或 者 收 到 8 个 
连续 的 TS2 序列 。 而 且 在 收 到 第 一 个 TS1 序列 之 前 ， 发 送 逻 辑 TX 至 少 已 经 发 送出 1024 个 
TS1 序列 。 

(2) PCIe 设备 从 Electrical Idle 状态 中 退出 ， 并 进入 到 Polling. Active 状态 时 ， 所 有 “已 
被 正确 识别 的 Lane” 至少 有 一 个 Lane 检测 到 对 端 设 备 。 

如 果 该 条 件 也 没有 成 立 ，PCIe 设备 将 可 能 进入 Polling.Compliance 状态 。 如 果 PCIe 链 路 
上 任何 一 个 Lane 的 发 送 链 路 上 连接 了 一 个 “对 地 阻抗 为 509” 的 电阻 后 ，PCIe 设备 也 将 强 
制 进 入 Polling.Compliance 状态 。 该 状态 的 主要 作用 是 对 PCIe 链 路 进行 检测 ， 本 节 对 此 不 做 
进一步 描述 。 

当 PCIe 设备 进入 Polling. Configuration 状态 时 ， 物理 层 首先 处 理 所 有 “已 识别 的 ”Lane 
中 ， 是 否 存在 极 性 翻转 (Lane Polarity Inversion) 的 现象 ， 之 后 进行 以 下 操作 。 

(1) 置 Link Control 2 寄存 需 的 “Transmit Margin” 字段 为 0b000。 

(2) 向 对 端 “ 已 识别 的 Lane” 连续 发 送 TS2 序列 ， 其 中 Link/Lane Number 为 PAD，, 而 
Loopback 位 为 0。 

(3) 当 收 到 8 个 连续 的 TS2 序列 ， 而 且 一 共 收 到 16 个 TS2 序列 后 ，PCIe 设备 将 进入 
Configuration 状态 ， 否 则 经 过 48ms 延 时 后 进入 Detect 状态 

当 PCIe 链 路 两 端 设备 收 齐 TS2 序列 后 ， 将 基本 同步 地 进 井 和 人 Configuration 状态 。 从 这 个 
角度 来 说 ，TS2 序列 是 为 了 同步 “异步 发 送 的 TS1 序列 ”。 

在 + Polling 状态 机 中 ， 还 有 一 个 Polling. Speed 子 状态 3 该 状态 的 主要 作用 是 调整 PCIe 链 
路 使 用 的 数据 传送 率 。 当 一 个 PCIe 链 路 两 端的 设备 可 以 支持 高 于 2. 5CT/s 的 数据 传送 率 时 ， 
可 以 首先 进入 该 状态 ， 改 变 PCIe 链 路 的 数据 传送 率 。 

在 许多 PCle 设备 的 具体 实现 中 ， 并 没有 使 用 Polling.Speed 子 状态 。 此 时 在 PCle 链 路 的 
训练 过 程 中 ,将 缺 省 使 用 2. 5GT/s 的 数据 传送 率 。 此 时 LTSSM 状态 机 将 首先 沿 着 Detect 一 
Polling 一 Configuration 一 "LO 的 路 径 进 入 LO 状态 ， 并 使 用 2. 5GT/s 的 数据 传送 率 ， 即便 PCIe 
链 路 两 端的 设备 都 支持 更 高 的 数据 传送 率 。 

当 PCIe 设备 改变 数据 传送 率 时 ， 需 要 在 L0 状态 ， 通 过 向 对 端 设备 发 送 TS1 序列 (其 
speed_change 位 为 1) ， 使 PCle 链 路 两 端 设备 进入 Recovery 状态 后 ， 才 能 改变 缺 省 使 用 的 数 
据 传 送 率 。 


8. 2. 3 ”Configuration 状态 


Configuratoin 状态 是 LTSSM 的 重要 状态 ,该 状态 完成 PCIe 链 路 的 主要 配置 工作 ， 包 括 
Link Number 和 Lane Number 的 协商 ， 并 使 PCIe 链 路 进入 正常 工作 状态 LO。 如 图 8-8 所 示 ， 
Configuration 状态 由 多 个 子 状态 组 成 。 

其 中 Configuration.Linkwidth.Start 和 Configuration.Linkwidth.Accept 状态 判断 当前 PCIe 链 
路 的 有 效 宽 度 ; Configuration. Lanenum. Wait 和 Configuration.Lanenum. Accept 状态 判断 当前 
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PCIe 链 路 的 物理 “Lane Number” 与 逻辑 “Lane Number” 的 对 应 关系 ; 而 Configura- 
tion.Complete 状态 负责 处 理 “Lane-to-Lane de-skew”。 由 上 文 所 述 ， 一 条 PCIe 链 路 可 能 由 多 
个 Lane 组 成 ， 而 使 用 这 几 个 Lane 进行 数据 传递 时 ， 可 能 存在 速度 差异 ， 即 “Skew”， 
“Lane-to-Lane de-skew” 就 是 消除 这 个 速度 差异 的 方法 。 


Entry 


Exit to Disable Configuration.Linkwidth.Start 
EA 
Configuration.Linkwidth.Accept 


Ek Configuration.Lanenum.Wait 
Configuration.Lanenum.Accept 
Configuration.Complete 


Configuration.Idle 


Exit to 
Loopback 


Exit to 
了 Recovery 


图 8-8 Configuration 状态 机 

在 LTSSM 状态 机 中 ，Polling 状态 正常 结束 时 将 进入 Configuration 状态 。 此 外 当 Recovery 
状态 出 现 某 些 错误 ， 没 有 正常 进入 L0 状态 时 ， 也 可 能 首先 进入 Configuration 状态 ， 然 后 经 
过 错误 处 理 之 后 ， 重 新 返回 L0 状态 。 

在 PCIe 总 线 中 ，LTSSM 状态 机 从 Polling 状态 进入 Configuration 状态 时 Linkup 位 为 0， 
因为 对 应 Lane 不 曾 被 激活 ; 而 从 Recovery 状态 进入 该 状态 时 Linkup 位 为 1。 进 入 Configura- 
tion 状态 时 ，PCIe 链 路 上 游 端 口 (包括 RC 端口 或 者 Switch 的 下 游 端口 ) Link Status 寄存 器 
的 Link Training 位 被 硬件 置 1 从 该 状态 进入 LO 状态 时 > 该 位 被 清 零 。 

1，Link Number 的 协商 过 程 

PCIe 总 线 使 用 自 协 商 的 方法 ， 确 认 不 同 PCIe 链 路 的 Link Number。 下 文 以 一 个 具有 两 个 
端口 的 Switch 为 例 ， 简 要 说 明 Link Number 的 协商 机 制 ， 多 端口 RC 的 Link Number 协商 机 
制 与 此 相似 。 该 Swith 的 与 EP 的 连接 方法 如 图 8-9 所 示 。 


Switch Switch 


Link Number 0 Link Number 1 


Lane 0 Lane 7 
\ / 
\ 
Link Number 0 Link Number 1 Link Number 0/1 Link Number 0/1 
Device A Device B 


Device C 
图 8-9 Link Number 的 协商 过 程 


Link Number 0 Link Number 1 
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在 该 Switch 中 共有 8 个 Lane， 并 且 可 以 分 解 为 2 个 PCIe 链 路 2 ， 每 个 链 路 的 最 大 宽度 
为 4， 即 含有 4 个 Lane， 这 4 个 Lane 并 不 能 自由 组 合 形成 两 个 PCIe 链 路 ， 而 是 第 0 ~3 个 
Lane 组 成 一 个 PCIe 链 路 ， 而 第 4 ~7 个 Lane 组 成 另 一 个 PCIe 链 路 。 甚 中 每 一 个 PCle 链 路 
可 以 独立 使 用 ， 连 接 不 同 的 EP， 这 些 EP 最 多 可 以 使 用 4 个 Lane。 当 然 这 8 个 Lane 也 可 以 
合并 成 一 个 PCIe 链 路 ， 与 一 个 EP 连接 。 

Switch 不 会 预知 其 下 游 链 路 与 EP 的 连接 拓扑 结构 。 因 此 在 Configuration. Linkwidth 状态 
时 ， Switch 将 向 第 0 ~3 个 Lane 发 送 TS1 序列 ， 其 Link Number 为 N; 而 向 第 4 ~7 个 Lane 发 
送 TS1 序列 ， 其 Link Number 为 N+1。 如 图 8-1 所 示 ，Device A 收 到 的 TS1 序列 ， 其 Link 
Number 为 N， 而 Device B 收 到 的 TS1 序列 ， 其 Link Number 为 N +1。Device A 或 者 B 收 到 
这 些 TS1 序列 后 ， 将 向 Switch 发 送 TS1 序列 ， 其 Link Number 为 N 或 者 N+1。 

而 Device C 收 到 的 TS1 序列 ， 其 Link Number 为 N 或 者 N+1。 值得 注意 的 是 ， 此 时 De- 
vice C 将 选择 唯一 的 Link Number“ 或 者 为 N 或 者 为 N+1” 回 传 给 Switch， 而 并 不 是 将 “N 
和 N+1” 都 回 传 给 Switch。 

Switch 根据 收 到 的 TS1 序列 判断 其 链 路 的 连接 拓扑 结构 ， 如 果 Switch 收 到 的 TS1 序列 中 
包含 两 个 不 同 的 Link Number， 则 表示 8 个 Lane 被 分 解 为 两 个 PCIe 链 路 与 两 个 PCIe 设备 相 
连 ; 如 果 只 有 一 个 Link Number， 则 表示 8 个 Lane 被 合并 为 1 个 PCIe 链 路 与 1 个 PCIe 设备 
相连 。 如 果 这 个 Switch 支持 4 路 PCle 链 路 ， 则 Switch 需要 向 这 4 个 PCIe 链 路 发 送 的 Link 
Number 为 N~N+3， 共 4 种 TS1 序列 ; 如 果 Switch 支持 8 路 PCIe 链 路 ， 则 Switch 需要 向 这 
8 个 PCIe 链 路 发 送 的 Link Number 为 N~N+7, 共 8 种 TS1 序列 。 

PCIe 总 线 使 用 自 协商 的 方法 识别 下 游 链 路 的 拓扑 结构 。PCIe 总 线 在 Configuration 状态 
中 ， 使 用 Configuration. Linkwidth. Start 和 Configuration. Linkwidth. Accept 两 个 子 状态 ， 进 行 
PCIe 链 路 两 端 设备 Link Number 的 协商 ， 以 确定 下 游 链 路 与 PCIe 设备 的 连接 拓扑 结构 。 

当 PCIe 链 路 进入 Configuration. Linkwidth. Start 状态 时 ， RC 端口 或 者 Switch 的 下 游 端 口 
将 向 其 下 游 链 路 发 送 TS1 序列 以 确定 PCle 链 路 的 Link Number， 下 游 设 备 也 将 会 回 送 TS1 序 
列 。 上 文 以 连接 2 个 EP 的 Switch 为 例 ， 说 明 Link Number 的 自 协 商 过 程 。RC 端口 与 其 下 游 
设备 Link Number 的 协商 过 程 与 此 类 似 ， 本 节 对 此 不 做 进一步 说 明 。 

当 PCIe 链 路 进入 Configuration 状态 时 ， 如 果 Linkup 位 为 0 时 ，Switch 需要 向 下 游 链 路 
的 每 一 个 Lane 都 发 送 若 干 个 TS1 序列 ， 在 这 个 TS1 序列 中 的 Link Number 字段 分 别 为 0 和 
12， 而 Lane Number 字段 为 PAD。 这 里 使 用 的 Link Number 由 Switch 内 部 由 硬件 逻辑 进行 编 
号 ， 其 编码 在 0 ~ 255 之 间 ， 本 节 使 用 0 和 1 作为 Link Number。 注 意 在 这 个 TS1 序列 中 ， 
Loopback 位 不 再 为 1， 和 否则 对 端 设 备 将 接收 到 的 TS1 序列 直接 Loopback ， 回 送 给 发 送 端 。 

值得 注意 的 是 ， 如 果 Linkup 或 者 upconfigure_capable 位 为 1 时 ， 即 从 Recovery 状态 进入 
该 状态 时 ，TS1 序列 中 的 Link Number 字段 为 PAD (K23.7)， 此 时 的 处 理 方 法 与 从 Polling 
状态 进入 该 状态 有 些 区 别 。 本 节 对 这 种 情况 不 做 进一步 描述 。 

Switch 通过 发 送 部 件 TX， 经 过 其 下 游 链 路 发 送 完毕 这 些 TS1 序列 后 ， 开 始 监控 其 接收 


G 此 时 Switch 中 包含 2 个 LTSSM 状态 机 ， 也 相应 具有 2 个 物理 层 、 链 路 层 和 事务 层 。 
昌 前 4 个 Lane 的 Link Number 为 0， 而 后 4 个 Lane 的 Link Number 为 1。 


225 


部 件 RX。 如 果 接 收 部 件 RX 的 任何 一 个 Lane 收 到 至 少 1 个 来 自 下 游 设 备 的 TS1 序列 后 (该 
序列 的 Link Number 和 Lane Number 字段 都 为 PAD) ， 需 要 进一步 判断 是 否 任何 一 个 Lane 收 
到 2 个 连续 的 TS1 序列 (该 序列 的 Link Number 为 0 或 者 1， 即 与 发 送 的 TS1 序列 Link Num- 
ber 相同 ， 而 Lane Number 为 PAD) 。 上 述 检 测 成 功 之 后 ，Switch 的 下 游 端 口 将 进入 Configu- 
ration.Linkwidth.Accept 状态 。 

而 与 Switch 连接 的 下 游 设 备 在 进入 Configuration.Linkwidth.Start 状态 时 ， 首 先 向 其 上 游 链 
路 发 送 若 干 个 TS1 序列 (该 序列 的 Link 和 Lane Number 字段 都 为 PAD) ， 这 也 是 Switch 的 下 
游 端 口 首 先 收 到 这 个 TS1 序列 (Link 和 Lane Number 都 为 PAD) 的 原因 。 

之 后 下 游 设备 等 待 来 自 Switch 的 TS1 序列 ， 下 游 设备 可 能 收 到 TS1 序列 中 的 Link Num- 
ber 为 0 或 者 1 (图 8-1 中 的 Device C 可 能 收 到 这 样 的 TS1 序列 ) ， 但 是 下 游 设 备 仅 使 用 其 中 
一 个 Link Number (PCle 总 线 并 没有 规定 是 使 用 0 还 是 1) 组 成 若干 个 TS1 序列 ， 并 通过 其 
上 游 链 路 发 送 给 Switch ， 这 个 TS1 序列 的 Lane Number 为 PAD。 

随后 下 游 设备 也 进入 Configuration.Linkwidth.Accept 状态 ， 至 此 在 这 条 PCIe 链 路 上 的 两 
个 设备 都 将 进入 Configuration. Linkwidth. Accept 状态 。 

在 Configuration.Linkwidth.Accept 状态 时 ，Switeh 的 下 游 端 口 将 分 析 接 收 到 的 TS1 序列 ， 
并 将 所 有 Link Number 相同 的 Lane 组 合 在 一 起 ， 通 过 此 步 又，Switch 的 下 游 端 口 可 以 确定 下 
游 链 路 的 连接 拓扑 结构 ， 即 下 游 链 路 由 哪些 Lane 组 成 。 对 于 图 8-1 所 示 的 实例 ，Device A 
使 用 Switch 下 游 链 路 的 Lane 0 ~3 ，Device B 使 用 Switch 下 游 链 路 的 Lane 4 ~7， 而 Device C 
使 用 Switch 下 游 链 路 的 Lane 0 ~7。 

Switch 在 确定 了 连接 拓扑 结构 后 ， 将 向 PCIe 链 路 2 的 所 有 Lane 发 送 若 干 个 TS1 序列 ， 
之 后 进入 Configuration.Lanenum. Wait 状态 。 值 得 注意 的 是 ， 在 这 个 TS1 序列 中 Link Number 
为 确定 的 值 ， 而 Lane Number 在 0 ~n -1 之 间 ， 此 时 使 用 的 Lane Number 为 逻辑 号 。 在 图 8- 
1 中 ， 虽 然 Device B 使 用 Switch 的 物理 Lane 为 4~7, 但 是 发 向 物理 Lane 4 ~7 的 TS1 序列 的 
Lane Number 为 0 ~3。 

在 进入 Configuration.Linkwidth.Accept 状态 时 ， 下 游 设备 等 待 Switch 端口 的 TS1 序列 。 如 
果 下 游 设 备 收 到 2 个 连续 的 TS1 序列 ， 其 Link Number 等 于 在 Configuration.Linkwidth.Start 状 
态 发 送 给 Switch 的 Link Number， 而 且 Lane Number 不 为 PAD 时 ， 下 游 设 备 将 向 Switch 发 送 
若干 个 TS1 序列 ， 之 后 下 游 设 备 进 入 Configuration.Lanenum.Wait 状态 。 

该 序列 的 Link Number 为 接收 到 的 值 ， 而 Lane Number 在 0 ~m-1s 之 间 。 如 果 下 游 设 
备 没 有 使 用 错 序 连 接 方式 ， 那 么 下 游 设 备 发 送 的 Lane Number 将 与 Switch 的 Lane Number 直 
接 对 应 ; 否则 错 序 对 应 。 本 节 虽 然 使 用 了 一 定 篇 幅 讲述 PCIe 总 线 Link Number 的 自 协商 过 
程 ， 但 也 仪 说 明了 该 过 程 的 一 个 子 集 。PCle 总 线 的 自 协商 过 程 较 为 复杂 ， 相 对 较 难 实现 。 

为 此 PLX 公司 采用 了 另外 一 种 Link Number 的 协商 机 制 。 下 面 以 PEX8518 芯片 2 为 例 说 
明 这 种 协商 机 制 ， 该 芯片 并 没有 采用 PCIe 总 线 规定 的 协商 机 制 ， 而 是 使 用 寄存 器 配置 其 下 


名 该 PCIe 链 路 可 能 由 部 分 Lane 组 成 ， 如 与 Device A 连接 的 链 路 由 Lane 0 ~3 组 成 ， 与 Device B 连接 的 链 路 由 Lane 
4 ~7 组 成 。 

名 mn， 因 为 下 游 设备 可 能 只 使 用 PCIe 链 路 的 部 分 Lane。 

全 PEX8518 是 PLX 公司 设计 的 Switch 芯片 。 
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游 端口 的 使 用 情况 。 

PEX8518 芯片 的 下 游 链 路 由 16 个 Lane 组 成 〈 分 别 为 0~15) ， 最 多 可 以 支持 5 个 端口 ， 
分 别 为 Port0 ~4。 这 5 个 端口 能 够 使 用 的 Lane 由 Port Configuration 寄存 器 规定 ， 而 不 是 通过 
Configuration 状态 自 适 应 检测 其 下 游 链 路 的 拓扑 结构 。 该 寄存 器 的 值 与 其 下 游 端 口 的 对 应 关 
系 如 表 8-2 所 示 。 


表 8-2 Port Configuration 寄存 器 与 下 游 端 口 的 对 应 关系 


Port Configuration 链 路 宽度 

寄存 器 的 什 端口 0 端口 1 端口 2 端口 3 端口 4 
0x00 x4 (0 ~3) x4 (4~7) x4 (8~11) x4 (12 ~15) 不 使 用 
0x02 x8 (0~7) x8 (8~15) 不 使 用 不 使 用 不 使 用 
0x03 x8 (0~7) x4 (8~11) x4 (12 ~15) 不 使 用 不 使 用 
0x04 x8 (0~7) x4 (8~11) x2 (12 ~13) x2 (14 ~15) 不 使 用 
0x05 x8 (0~7) x2 (8 ~9) x2 (10~11) x4 (12 ~15) 不 使 用 
0x06 x8 (0 ~7) x2 (8 ~9) x4 (10~13) x2 (14 ~15) 不 使 用 
0x08 x8 (0~7) x2 (8 ~9) x2 (10~11) x2 (12 ~13) x2 (14~15) 
0x09 x4 (0~3) x4 (4~7) x4 (8~11) x2 (12 ~13) x2 (14~15) 


由 上 表 所 示 ，PEX8518 芯片 使 用 静态 表 进 行 Link Number 的 确认 ， 而 没有 使 用 PCle 总 
线 规定 的 自 协商 机 制 ， 从 而 在 保证 配置 灵活 性 的 同时 ， 极 大 简化 了 Link Number 的 协商 难 
度 。 但 是 使 用 这 种 方法 不 适用 于 “下 游 链 路 拓扑 结构 不 可 预知 ”的 应 用 。 

因此 在 设计 中 ,尽量 避免 使 用 PEX8518 芯片 连接 一 个 PCIe 插 槽 ， 由 为 这 个 钉 仿 上 的 
PCIe 设备 使 用 的 Lane 并 不 确定 ,使 用 静态 分 配 Lane 的 方法 并 不 合适 , 但 是 这 并 不 妨碍 
PEX8518 心 片 在 供 入 式 领 域 ， 尤 其 在 电信 领域 的 大 规模 应 用 。 

2. Lane Number 的 协商 过 程 

物理 层 在 确认 PCIe 链 路 的 Link Number 之 后 ， 开 始 进行 Lane Number 的 协商 。PCIe 总 线 
使 用 Configuration.Lanenum.Wait 和 Configuration.Lanenum.Accept 两 个 子 状态 完成 Lane Number 
的 协商 。 下 面 仍然 以 图 8-9 为 例 说 明 Lane Number 的 协商 过 程 。 

与 Link Number 的 协商 过 程 相 比 ，Lane Number 的 协商 过 程 较为 简单 。 本 小 节 以 一 个 实 
例 说 明 Lane Number 的 实现 过 程 ， 而 并 不 深究 LTSSM 状态 机 的 详细 迁移 过 程 。 

如 图 8-1 所 示 ，PCIe 链 路 允许 错 序 连接 ， 因 此 Switch 的 下 游 端 口 与 下 游 设备 的 上 游 端 
口 使 用 的 Lane Number 并 不 一 定 完全 一 致 ， 因 此 物理 层 需要 进行 Lane Number 的 协商 。 当 
Switch 与 Device A 完成 Link Number 的 协商 后 ， 将 进行 Lane Number 的 协商 。 

首先 Switch 向 Device A 的 4 个 Lane TS1 序列 ， 在 这 个 TS1 序列 中 的 Link Number 
字段 为 0， 而 Lane Number 字段 分 别 为 0、1、2 和 3。 

当 Device A 收 到 这 些 TS1 序列 后 ， Switch 回 送 使 用 TS1 序列 ， 在 这 个 TS1 序列 
中 的 Link Number 字段 为 0， 而 Lane Number 字段 为 Device A 的 物理 Lane Number 号 。 如 果 
Switch 与 Device A 使 用 图 8-1 左 图 所 示 的 错 序 连接 方法 时 ，Device A 回 送 的 TS1 序列 的 Link 
Number 字段 为 3、2、1 和 0， 如 果 使 用 图 8-1 中 图 所 示 的 连接 方法 时 ，Device A 回 送 的 TS1 
序列 为 0、1、2 和 3。 

当 Switch 收 到 Device A 的 回 送 TS1 序列 后 ， 可 以 获得 PCIe 链 路 的 连接 信息 ， 从 而 确定 
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当前 Lane 的 连接 拓扑 结构 ， 并 完成 逻辑 Lane Number 与 物理 Lane Number 的 对 应 关系 。 当 使 
用 图 8-1 左 图 所 示 的 错 序 连接 方法 时 ，Switch 的 逻辑 Lane Number 0 ~3 与 Device A 的 物理 
Lane Number 3 ~0 对 应 。 

Switch 和 Device A 都 可 以 处 理 PCIe 链 路 的 错 序 连 接 ， 本 节 所 述 的 实例 是 Switch 支持 PCIe 
链 路 的 错 序 连接 而 Device A 不 支持 这 种 错 序 连接 ， 此 时 Device A 不 进行 物理 Lane Number 和 你 
辑 Lane Number 的 转换 ， 对 于 Device A 而 言 ， 物 理 Lane Number 等 于 逻辑 Lane Number。 

当 Switch 的 下 游 端 口 和 对 端 设 备 的 上 游 端 口 离 开 Configuration.Lanenum.Accept 状态 后 
将 进入 Configuration.Complete 状态 进行 Link Number 和 Lane Number 的 确认 。 

3. Link Number 与 Lane Number 的 确认 

PCIle 总 线 使 用 Configuration.Complete 和 Configuration.Idle 状态 进行 Link Number 与 Lane 
Number 的 确认 。 在 Configuration.Complete 状态 中 ，PCIe 链 路 的 两 端 设备 将 使 用 TS2 序列 进 
行 Link 与 Lane Number 的 确认 。 在 这 个 TS2 序列 中 的 Link Number 字段 为 之 前 确定 的 值 ， 而 
Lane Number 字段 也 为 已 经 确认 的 号 码 。 

当 链 路 两 端的 设备 收 到 这 些 TS2 序列 后 ， 将 进一步 消除 PCle 链 路 不 同 Lane 的 漂移 
(De-skew) ， 并 设置 合理 的 N_FTS 的 值 ， 还 有 一 个 重要 的 操作 是 记录 当前 PCle 设备 能 够 支 
持 的 数据 传送 率 9 ， 然 后 进入 Configuration.Idle 状态 。 

PCIe 设备 处 于 Configuration.Idle 状态 时 ，PCIe 链 路 已 经 设置 完毕 ， 此 时 将 向 对 端 至 
少 发 送 16 个 Idle 序列 ， 当 接收 逻辑 RX 收 到 这 些 Idle 序列 后 ， 将 置 LinkUp 状态 位 为 
0bl ，PCle 数据 链 路 层 将 从 DL_Inactive 状态 迁移 到 DL_Init 状态 ， 而 物理 层 将 进入 正常 
工作 状态 L0。 


8. 2. 4 Recovery 状态 


Recovery 状态 是 LTSSM 状态 机 的 重要 状态 ， 其 复杂 程度 超过 Configuration 状态 。 该 状态 
可 以 从 IO、LI 和 LO0s 状态 进入 ， 当 PCIe 设备 进入 低 功 耗 状 态 ， 需 要 进行 链 路 重 训 练 时 ， 将 
经 过 Recovery 状态 之 后 ， 才 能 重新 进入 正常 工作 状态 ， 第 8. 3 节 将 讲述 如 何 从 Ll 和 LO0s 状 
态 进 入 Recovery 状态 。 

Recovery 状态 机 如 图 8-10 所 示 ， 该 状态 机 由 Recovery.RevrLock 、Recovery.Speed 、Recov- 
ery.RevrCfg 和 Recovery.Idle 共 四 个 子 状态 组 成 。 

1， 从 L0 状态 进入 到 Recovery 状态 

当 PCIe 设备 工作 在 L0 状态 时 ， 出 现 以 下 情况 时 ,将 进入 Recovery 状态 。 

(1) 更 改 数据 传送 率 

PCle 设备 需要 改变 数据 传送 率 时 ， 将 进入 Recovery 状态 。 在 Configuration 状态 中 ，PCIe 
链 路 两 端 设备 记录 了 “当前 PCIe 设备 能 够 支持 的 数据 传送 率 ” ， 如 果 两 端 设备 都 支持 大 于 
2. 5GT/s 的 数据 传送 率 ， 可 以 从 L0 状态 进入 Recovery 状态 。 

在 PCIe 设备 中 存在 两 个 状态 位 。 其 中 directed_speed_change 位 为 1 时， 表示 PCIe 设备 


G@ 如 果 PCle 设备 需要 改变 数据 传送 率 时 ， 可 以 在 Recovery 状态 中 进行 更 改 ,但 是 在 Configuration 状态 不 能 进行 该 


希望 更 改 数据 传送 率 ， 而 changed_speed_recovery 位 为 1 时 表示 PCIe 链 路 已 经 完成 数据 传送 
率 的 更 改 。 
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图 8-10 ”Recovery 状态 机 


当 数 据 链 路 层 处 于 DL_Active 状态 时 ， 系 统 软 件 可 以 置 directed_speed_change 位 为 1， 同 
时 复位 changed _speed_recovery 位 为 0， 随后 该 设备 将 进入 Recovery 状态 。 值 得 注意 的 是 
PCIle 链 路 的 两 端 设备 需要 同时 改变 directed_speed_change 和 changed_speed_recovery 位 。 

(2) 更 改 链 路 宽度 

PCle 设备 在 Configuration 状态 时 ， 如 果 设 置 upconfigure_capable 状态 位 为 1， 可 以 更 改 
链 路 宽度 。 此 时 该 设备 需要 从 L0 状态 进入 Recovery 状态 ， 之 后 才能 进行 该 操作 。 

(3) 已 配置 完毕 的 Lane 中 收 到 TS1 或 者 TS2 序列 。 

(4) 检测 或 者 推断 出 对 端 设备 处 于 Idle 状态 。 

当 PCle 设备 检测 到 对 端 处 于 Idle 状态 时 ,将 有 可 能 进入 Recovery 状态 。 此 处 的 Idle 状 
态 由 两 部 分 内 容 组 成 ， 一 个 通过 硬件 检测 对 端 设备 的 发 送 逻 辑 TX 是 否 处 于 “Electrical Idle” 
状态 ; 另 一 个 通过 逻辑 推 新 对 端 设备 的 发 送 逻 辑 是 否 处 于 Logical Idle 状态 。 

在 正常 情况 下 ， 发 送 逻 辑 TX 在 进入 Electrical Idle 状态 时 ， 需 要 发 送 EIOS 序列 。 如 果 
对 端的 接收 逻辑 RX 检测 到 PCIe 链 路 实际 上 已 经 进入 Idle 状态 ， 但 是 并 没有 收 到 EIOS 序列 
时 ， 将 认为 PCIe 链 路 出 现 某 种 故障 ，PCIe 总 线 并 没有 规定 在 这 种 情况 下 ，PCIe 设备 是 进入 
Recovery 状态 还 是 继续 保持 在 L0 状态 中 ,但 是 在 多 数 实现 中 ， 都 将 进入 Recovery 状态 。 

值得 注意 的 是 ， 一 个 PCIe 设备 进入 Recovery 状态 之 后 ， 将 向 对 端 发 送 TS1 序列 ， 而 对 
端 设备 收 到 这 个 TS1 序列 后 ， 也 将 从 I0 状态 进入 Recovery 状态 。 因 此 在 PCIe 链 路 中 ， 当 一 
端 设 备 进 入 Recovery 状态 后 ， 对 端 设备 也 将 进入 该 状态 。 

2.，Recovery.RcvrLock 状态 

PCle 设备 进入 Recovery 状态 时 ， 将 首先 到 达 Recovery.RevrLock 状态 。PCIe 设备 进入 该 
状态 时 将 连续 向 对 端 “ 已 配置 完毕 的 Lane” 发 送 TS1 序列 ， 该 序列 的 Link 和 Lane Number 
为 之 前 在 Configuration 状态 中 设置 的 值 。 

如 果 directed_speed_change 位 为 1 时 ， 发 送 的 TS1 序列 的 speed_change 位 也 将 设置 为 1。 
PCIe 设备 如 果 在 Recovery.RevrLock 状态 时 ， 收 到 speed_change 位 为 1 的 TS1 序列 时 ， 该 设 
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备 的 directed 加 全 change 位 也 将 改变 为 1。 

下 文 以 一 个 实例 说 明 speed_change 位 和 directed_speed_change 位 的 作用 。 假 设 在 一 条 
PCIe 链 路 上 连 和 法 了 两 个 设 和 EP A 和 Switch 的 下 游 端 口 B， 而 且 这 两 个 设备 的 工作 状态 的 
初始 值 为 L0。 

如 果 EP A 希望 进入 Recovery 状态 改变 数据 传送 率 ， 则 置 directed_speed_change 位 为 1， 
随后 进入 Recovery. RevLock 状态 ， 同 时 向 端口 B 发 送 speed_change 位 为 1 的 TS1 序列 。 

而 当 端 口 B 处 于 L0 状态 时 ， 收 到 这 个 TS1 序列 后 ， 并 不 会 检测 speed_change 位 ， 而 直 
接 进 入 Recovery 状态 。 然 后 向 EP A 发 送 若干 个 speed_change 位 为 0 的 TS1 序列 ， 因 为 此 时 
端口 B 的 directed_speed_change 位 为 0。 

当 端 口 B 收 到 “8 个 连续 ”的 从 EP A 发 来 的 “speed_change 位 为 1” 的 TS1 序列 (还 
包括 EP A 支持 的 数据 传送 率 种 类 ) 之 后 ， directed_speed_change 位 将 置 为 1， 然 后 再 向 EP 
A 发 送 “speed_change 位 为 1” 的 TS1 序列 。 值 得 注意 的 是 ， 在 上 述 实例 中 ， 端 口 B 在 Re- 
covery.RevLock 状态 将 发 送 两 种 不 同 的 TS1 序列 ， 一 种 序列 的 speed_change 位 为 0， 而 另 一 
种 序列 的 speed_change 位 为 1。 

PCle 设备 连续 发 送 TS1 序列 的 同时 ， 将 通过 其 接收 逻辑 RX 检测 ， 是 否 收 到 8 个 连续 的 
TS1 或 者 TS2 序列 ， 是 否 这 些 序列 使 用 的 Link 和 Lane Number 与 该 设备 发 送 的 值 相同 ， 而 且 
这 些 序 列 的 speed_change 位 是 否 与 directed_speed_change 位 相同 。 如 果 检 测 成 功 ， 该 设备 将 
进入 Recovery.RevrCfg 状态 。 在 该 状态 中 ，PCIe 设备 将 重新 获得 Bit/Symbol Lock ， 并 处 理 不 
同 Lane 之 间 的 Skew， 这 也 是 该 状态 位 被 命名 为 “Lock” 的 原因 。 

PCIe 设备 还 可 以 从 该 状态 直接 进入 Recovery.Speed BFQ 状 态 ,如 果 当 前 PCIe 链 路 已 经 工 
作 在 大 于 2.5GT/s 的 数据 传送 率 ,但 是 并 不 能 稳定 工作 (并 没有 正确 获得 Bit/Symbol Lock ) ， 
此 时 需要 进入 Recovery.Speed 状态 ， 将 数据 传送 率 更 改 为 2.5GT/s。PCIe 设备 还 可 以 从 该 状 
态 进 入 Configuration 或 者 Detect 状态 。 本 节 对 此 不 做 详细 介绍 

3.，Recovery.RcvrCfg 状态 

PCle 设备 进入 Recovery.ReviCfg 状态 后 ， 将 向 对 端 发 送 TS2 序列 ， 该 序列 的 Link 和 
Lane Number 为 之 前 在 Configuration 状态 设置 的 值 。 如 果 directed_speed_change 位 为 1 时 ,该 
序列 的 speed_change 位 也 必须 为 1。 发 送 这 些 TS2 序列 的 主要 目的 是 进一步 确认 Recover- 
y.RevrLock 状态 使 用 TS1 序列 所 获得 的 结果 。 

之 后 PCIe 设备 通过 其 接收 逻辑 RX 检测 ， 是 否 收 到 了 8 个 连续 的 TS2 序列 ， 这 些 序列 
使 用 的 Link 和 Lane Number 与 该 设备 发 送 的 值 是 否 相 同 ， 而 且 这 些 序列 的 speed_change 位 是 
否 与 directed_speed_change 位 相同 。 

如 果 检 测 成 功 ，PCle 设备 将 根据 TS2 序列 中 的 speed_change 位 决定 进入 Recovery.Speed 
状态 ， 还 是 Recovery.Idle 状态 

如 果 该 PCIe 设备 能 够 支持 的 数据 传送 率 与 接收 的 TS2 序列 中 的 数据 传送 率 重合 ， 比 如 
都 支持 5GT/s 的 数据 传送 率 ， 而且 speed_change 位 为 1 时 ,将 进入 Recovery.Speed 状态 ， 
PCIe 设备 从 Recovery.RevrCfg 状态 迁移 到 Recovery.Speed 状态 还 有 一 个 补充 条 件 ， 即 接收 到 
第 一 个 TS2 序列 后 ， 至 少 向 对 端 发 送 32 个 连续 的 TS2 序列 。 

如 果 Speed_change 位 为 0 时 ， 将 进入 Recovery.Idle 状态 ，PCIe 设备 从 Recovery.RevrCfg 
状态 迁移 到 Recovery.Idle 状态 还 有 一 个 补充 条 件 ， 即 从 接收 到 第 一 个 TS2 序列 后 ， 向 对 端 发 
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送 16 个 连续 的 TS2 序列 。 

如 果 在 Recovery.RevrLock 状态 中 ，PCIe 设备 没有 处 理 不 同 Lane 之 间 的 Skew， 在 该 状态 
中 ，PCIe 设备 可 以 处 理 不 同 Lane 之 间 的 Skew。PCIe 设备 还 可 以 从 该 状态 进入 Configuration 
或 者 Detect 状态 。 本 节 对 此 不 做 详细 介绍 。 

4. Recovery. Speed 状态 

PCle 设备 进入 该 状态 时 ， 如 果 使 用 的 数据 传送 率 为 2. 5GT/s， 则 其 发 送 逻辑 TX 需要 发 
送 1 个 EIOS 序列 ， 然 后 进入 Electrical Idle 状态 ; 如 果 使 用 的 数据 传送 率 为 5.0GT/s， 则 其 
发 送 逻辑 TX 需要 发 送 2 个 EIOS 序列 ， 然 后 进入 Electrical Idle 状态 。 此 时 该 PCIe 设备 需要 
等 待 其 接收 逻辑 RX 也 进入 Electrical Idle 状态 ,才能 进一步 工作 。 接 收 逻 辑 检测 对 端 发 送 逻 
辑 TX 是 否 处 于 Electrical Idle 状态 ， 使 用 的 方法 如 第 8. 1. 2 节 所 示 。 

当 PCIe 设备 的 发 送 与 接收 逻辑 都 进入 到 Electrical Idle 状态 后 ， 至 少 需要 等 待 800ns 判 
断 PCIe 链 路 两 端 是 否 成 功 完成 数据 传送 率 的 协商 ， 或 者 等 待 1ms 判断 协商 是 否 成 功 。 协 商 
成 功 后 successful _speed_negotiation 位 被 置 为 1， 否 则 将 置 0。 

如 果 协 商 成 功 ，PCle 设备 将 置 directed_speed_change 位 为 0， 然 后 从 该 状态 回 到 Recov- 
ery.RevrLock 状态 。 值 得 注意 的 是 在 Recovery.Speed 状态 并 不 发 送 PLP 检查 新 的 数据 传送 率 
是 否 能 够 使 用 。 而 在 Recovery.RevrLock 状态 中 ， 通 过 TS1 序列 判断 对 端 设备 是 否 能 够 获得 
Bit/Symbol Lock ， 确 定 新 的 数据 传送 率 是 否 正常 工作 。 如 果 不 能 正常 工作 ， 该 设备 还 将 从 
Recovery.RevrLock 状态 回 到 Recovery.Speed 状态 ,将 数据 传送 率 降低 为 2.5GT/s 后 ， 再 次 回 
到 Recovery.RevrLock 状态 。 

5. Recovery.ldle 状态 

PCIe 链 路 进入 Recovery.Idle 状态 后 ， 将 连续 向 对 端 发 送 Idle 序列 ， 当 接收 逻辑 RX 的 所 
有 可 用 Lane 收 到 8 个 连续 的 Idle 序列 ， 而 且 发 送 逻 辑 TX 发 送 了 16 个 Idle 序列 后 ， 将 进入 
10 状态 ， 完 成 链 路 训练 或 者 重 训练 过 程 ， 否 则 将 视 情况 进入 Disabled 、Loopback 、Hot Re- 
set 、Configuration 和 Detect 状态 ， 本 节 对 Recovery.Idle 进入 这 些 状态 不 做 详细 分 析 。 


8. 2. 5 LTSSM 的 其 他 状态 


如 图 8-5 所 示 ， 在 LTSSM 中 还 含有 Disabled 、Host Reset 、Loopback 、Recovery 、L0、 
Ll1、L2 和 L0s 状态 。 其 中 LO、LI、L2 和 L0s 与 PCle 的 电源 管理 相关 ， 在 第 8. 3 节 将 详细 
介绍 这 些 状态 的 转换 关系 。 

PCIe 链 路 还 可 以 从 Configuration 和 Recovery 状态 进入 Disabled 状态 。 当 系统 软件 需要 关 
闭 PCIe 链 路 时 ， 可 以 通过 设置 Link Control 寄存 器 的 Link Disabled 位 ， 使 PCIe 链 路 进入 Dis- 
abled 状态 。 物 理 层 进 入 Disabled 状态 时 ， 将 禁止 PCIe 链 路 的 使 用 ， 然 后 视 情 况 进 入 PCIe 
链 路 的 初始 状态 Detect， 重 新 进行 PCle 链 路 的 训练 工作 。 

而 Loopback 状态 是 一 种 调试 状态 ，PCIe 总 线 测试 仪器 可 以 使 PCIe 链 路 的 对 端 设备 进入 
该 状态 ， 然 后 对 PCIe 链 路 进行 测试 。 

Hot Reset 状态 从 Recovery 状态 进入 ， 当 系统 软件 对 PCIe 链 路 进行 Hot Reset 操作 时 ， 
PCIe 链 路 将 进入 该 状态 ， 然 后 进入 PCIe 链 路 的 初始 状态 Detect。 
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8.3 PCle 总 线 的 ASPM 


PCle 总 线 的 电源 管理 包含 ASPM 和 软件 电源 管理 两 方面 内 容 。 所 谓 ASPM 是 指 PCle 链 
路 在 没有 系统 软件 参与 的 情况 下 ， 由 PCIe 链 路 自发 进行 的 电源 管理 方式 。 而 软件 电源 管理 
指 PCI PM 机 制 ，PCIe 总 线 的 软件 电源 管理 与 PCI 总 线 兼 容 。 

对 于 一 个 通用 处 理 器 系统 ， 电 源 管理 的 硬件 实现 与 软件 处 理 过 程 都 较为 复杂 。 而 对 于 一 
个 专用 的 处 理 器 系统 ， 如 手机 应 用 ， 在 多 数 情 况 下 ， 更 侧重 于 在 某 些 用 户 场景 中 ， 功 耗 的 使 
用 情况 ， 其 设计 难度 相对 较 小 。 而 无 论 是 对 于 通用 还 是 专用 处 理 嚣 系统， 电源 管理 都 需要 处 
理 器 与 外 部 设备 的 参与 ， 协 调 完成 。 

PCIe 总 线 为 PCIe 设备 提供 了 几 种 低 功 耗 模式 。 在 一 个 处 理 器 系统 中 ，PCIe 设备 的 低 功 
耗 模式 需要 与 处 理 器 的 低 功 耗 模 式 协 调 工作 ， 以 最 优化 整个 处 理 器 系统 的 功 耗 。 

对 于 某 些 专 用 的 处 理 器 系统 ， 外 部 设备 之 间 也 需要 协调 工作 ， 以 最 优化 整个 处 理 器 系统 
的 使 用 的 功 耗 。 目 前 电源 管理 已 经 成 为 处 理 器 系统 实现 的 一 个 热点 。 但 是 PCI/PCIe 总 线 提 
供 的 电源 管理 机 制 远 非 完 美 ， 该 管理 机 制 仅 考虑 了 外 部 设备 与 处 理 器 系统 之 间 的 电源 使 用 关 
系 ， 并 没有 考虑 外 部 设备 之 间 电 源 的 使 用 关系 。 

在 一 个 处 理 器 系统 中 ， 外 部 设备 越 来 越 智能 化 ， 处 理 器 与 外 设 间 的 通信 基本 等 同 于 两 个 
处 理 器 间 的 通信 ， 适 用 于 这 类 处 理 器 系统 的 电源 管理 机 制 也 有 竺 研究。 在 有 些 处 理 器 系统 
中 ， 专 门 设 置 了 用 于 电源 管理 的 微 处 理 器 ， 协 调 “ 主 处 理 器 ”与 “外 部 设备 ”及 外 部 设备 
间 的 电源 使 用 情况 ， 以 最 优化 整个 处 理 器 系统 的 电源 管理 。 目 前 在 智能 手机 的 设计 中 ， 通 常 
具有 专门 用 于 电源 管理 的 微 处 理 器 。 


8.3.1 与 电源 管理 相关 的 链 路 状态 


PCle 总 线 定义 了 一 系列 与 电源 管理 相关 的 链 路 状态 。 

e L0 状态 。PCIe 设备 的 正常 工作 状态 。 

e LO0s 状态 。PCIe 设备 处 于 低 功 耗 状态 。 系 统 软件 不 能 控制 L0 状态 和 LOs 状态 间 的 迁 
移 过 程 ， 这 两 个 状态 的 迁移 只 能 由 ASPM 控制 。 

e Ll 状态 。PCIe 设备 使 用 的 功 耗 低 于 处 于 LOs 状态 时 的 功 耗 。 

e 12/13 Ready 状态 。PCI 设备 进入 12 或 者 13 状态 之 前 使 用 的 过 渡 状 态 。 

e 12 状态 。PCIe 设备 仅 使 用 辅助 电源 工作 ， 主 电源 已 经 被 关闭 。 在 PCIe 总 线 中 Ll 和 


L2 状态 是 可 选 的 。 
e 13 状态 。 该 状态 也 被 称 为 “Link off” 状 态 ， 此 时 PCIe 设备 使 用 的 Vce 电源 已 经 被 
关闭 。 


。 LDn 状态 。 该 状态 是 一 个 “ 伪 ” 状 态 ，PCIe 链 路 处 于 L2 、L3 状态 时 ， 需 要 通过 LDn 
状态 之 后 才能 进入 LO 状态 。 该 状态 由 LTSSM 状态 机 的 Detect 、Polling 和 Configuration 
等 状态 组 成 。 

这 些 与 电源 管理 相关 的 状态 机 迁移 模型 如 图 8-11 所 示 。 
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图 8-11 电源 管理 状态 机 


本 节 重 点 说 明 LO0、L0s 和 Ll 状态 的 工作 原理 以 及 如 何 使 用 ASPM 机 制 进行 状态 迁移 。 
在 第 8. 4 节 将 讲述 系统 软件 如 何 设 置 寄存 器 使 PCIe 设备 进入 L0 、L0s 和 1 状态 。 

在 PCIe 设备 中 ，Link Capabilities 寄存 器 的 ASPM Support 字段 表示 当前 PCIe 设备 可 以 支 
持 的 链 路 状态 ， 该 字段 只 读 。 而 Link Control 寄存 器 的 ASPM Control 字段 为 可 读 写 的 ，PCIe 
设备 根据 ASPM Support 字段 判断 当前 PCIe 链 路 是 否 支持 L0s 和 Ll 状态 ， 还 是 同时 支持 这 两 
种 状态 ， 并 设置 ASPM Control 字段 。 


8.3.2 LIL0 状态 


PCle 设备 从 Configuration 、Recovery 和 LO0s 状态 进入 10 状态 时 ，10 状态 是 PCIe 设备 的 
正常 工作 状态 。 此 时 PCIe 设备 可 以 通过 PCle 链 路 ， 发 送 和 接收 TLP、DLLP 和 PLP， 此 时 
LinkUp 状态 位 为 1， 而 数据 链 路 层 处 于 DL_Active 状态 。PCle 设备 从 LO 状态 可 以 进入 Re- 
covery、LOs、Ll 和 1L2/13 Ready 状态 ， 本 节 重 点 讨论 从 L0 状态 进入 Recovery、L0s 和 LIl 状 
态 的 情况 。 而 从 L0 状态 进入 Recovery 状态 的 条 件 见 第 8.2.4 节 。 

1， 进入 LOs 状态 

当 PCle 设备 发 现 链 路 “ 空 闪 ”时 ”， 可 以 主动 进入 LOs 状态 。RC、EP 和 Switch 进入 
LOs 状态 的 “空间 ”条 件 并 不 相同 。 对 于 含有 多 个 Function 的 上 游 端 口 ， 只 有 所 有 Function 
都 处 于 “ 空 闪 ”状态 时 ， 才 被 认为 “ 空 闪 ”。 此 人 处“ 空 闪 ”的 定义 与 LTSSM 的 Electrical 
Idle 和 Logical Idle 间 没 有 任何 联系 。 

对 于 RC 或 者 EP 的 端口 ， 当 以 下 两 个 条 件 同 时 满足 时 ， 当 前 端口 被 认为 是 “ 空 
闲 ” 的 。 

(1) 没有 准备 发 送 的 TLP， 或 者 对 端 没有 提供 足够 的 Credit?。 

(2) 没有 准备 发 送 的 DLLP。 

对 于 Switch 的 上 游 端口 ， 当 以 下 三 个 条 件 同时 满足 时 ， 发 送 逻 辑 TX 认为 PCIe 链 路 是 
“ 室 闲 ”的 。 

(1) Switch 所 有 下 游 端 口 的 接收 链 路 处 于 L0s 状态 。 

(2) 没有 准备 发 送 的 TLP， 或 者 对 端 没 有 提供 足够 的 Credit。 

(3) 没有 准备 发 送 的 DLLP。 


@ 当空 闲 时 间 不 大 于 7ks 时 ， 将 进入 L0s 状态 ， 但 是 PCle 总 线 并 没有 规定 进入 L0s 状态 的 最 小 时 间 。 
外 对 端 没 有 提供 足够 的 Credit 时 ， 发 送 端 不 能 发 送 TLP。 
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对 于 Switch 的 下 游 端 口 ， 当 以 下 三 个 条 件 同 时 满足 时 ， 发 送 逻 辑 TX 认为 PCIe 链 路 是 
“空闲 ”的 。 

(1) Switeh 的 所 有 上 游 端 口 的 接收 链 路 处 于 LOs 状态 。 

(2) 没有 准备 发 送 的 TLP， 或 者 对 端 没 有 提供 足够 的 Credit。 

(3) 没有 准备 发 送 的 DLLP。 

值得 注意 的 是 ， 一 个 接收 端 或 者 发 送 端的 发 送 逻 辑 TX 和 接收 逻辑 RX 在 同一 时 刻 ， 可 
能 处 于 不 同 的 LTSSM 状态 ,一 个 处 于 LO ， 而 另 一 个 处 于 LOs。 

2， 进 入 L1 状态 和 L2 状态 

PCle 设备 可 以 通过 上 层 软 件 ， 将 链 路 状态 从 L0 状态 迁移 到 Ll 或 者 12 状态 。 当 PCTe 
设备 进入 D1 ~ D3 状态 时 ， 其 上 游 链 路 将 进入 L1 状态 ; 而 进入 D3。 ,状态 时 ， 其 上 游 链 路 将 
进入 L2 状态 。D1 ~ D3 和 D3 状态 的 详细 说 明 见 第 8.4.1 节 。 而 PCle 链 路 的 两 端 设备 需要 
同时 进入 LI 或 者 12 状态 。 

首先 两 端 设备 的 发 送 逻辑 TX 分 别 向 对 端 发 送 EIOS 序列 ， 随 后 发 送 逻 辑 TX 进入 Elec- 
trical Idle 状态 。 如 果 PCIe 设备 的 接收 逻辑 RX 从 任意 Lane 中 收 到 1 个 或 者 2 个 EIOS 序列 
后 ,该 设备 将 进入 到 L1 或 者 12 状态 。 当 PCIe 链 路 工作 在 2. 5CT/s 时 ， 需 要 发 送 1 个 EIOS 
序列 ; 如果 工 作 在 5GT/s 时 ， 需 要 发 送 2 个 EIOS 序列 。 

值得 注意 的 是 ，PCIe 设备 处 于 L1 状态 和 12 状态 时 ，D + 和 DD - 信和 号 输出 的 DC 共 模 电 
压 并 不 相同 。 人 处 于 L1 状态 时 ，PCIe 设备 的 发 送 逻 辑 TX 仍然 需要 维持 一 个 相对 较 低 的 DC 
共 模 电压 ， 其 伏 值 比 其 处 于 I0 状态 时 低 VTX - CM -DC - ACTIVE -IDIE -DELTA (最 小 值 
为 0， 最 大 值 为 100mv) ， 如 公式 8 -1 所 示 。 

| 站-cw cppurngzo] Vy _ cm _ 1ae Det During Electrical Tdle] | 100 mV (8 一 1) 

而 PCIe 设备 在 12 状态 时 ， 其 发 送 逻 辑 TX 并 没有 这 种 限制 ， 而 且 其 发 送 逻 辑 和 接收 四 
辑 基 本 处 于 下 电 状 态 。 这 正 是 PCIe 设备 处 于 12 状态 时 使 用 的 功 耗 低 于 LI1 状态 的 原因 ， 同 
时 也 是 从 12 状态 进入 IL0 状态 ， 更 加 耗 时 的 原因 。 

如 果 PCIe 设备 支持 Beacon 机 制 ， 那 么 处 于 12 状态 时 ，PCIe 设备 的 发 送 逻 辑 TX 能 够 
发 送 Beacon 信号 ， 而 接收 逻辑 RX 能 够 检测 Beacon 信号 9?。Beacon 机 制 是 一 种 唤醒 机 制 。 
当 PCIe 设备 处 于 L2 状态 时 ， 可 以 使 用 该 机 制 唤醒 。 


8.3.3 ”L0s 状态 


PCIe 设备 必须 支持 LOs 状态 。L0s 状态 是 一 个 低 功 耗 状态 ，PCle 设备 进入 或 者 退出 该 状 
态 不 需要 系统 软件 的 干预 ， 其 状态 转换 由 硬件 控制 完成 。L0s 的 状态 转换 由 两 部 分 组 成 ， 一 
个 是 接收 状态 机 ， 另 一 个 是 发 送 状 态 机 。 

同一 个 PCIe 设备 的 发 送 逻 辑 TX 和 接收 逻辑 RX， 在 同一 时 刻 可 能 处 于 不 同 的 链 路 状 
态 ， 其 中 一 个 为 LO0 ， 而 另 一 个 为 L0s。 例 如 当 一 个 EP 进行 DMA 写 操作 时 ， 其 发 送 逻 辑 TX 
一 直 被 使 用 ， 因 此 处 于 IL0 状态 ， 而 接收 逻辑 RX 可 能 长 时 间 没 有 被 使 用 ， 从 而 可 以 暂时 处 


”Beacon 信号 并 不 是 实际 信号 ， 而 是 通过 D + 和 D - 信和 号 发 送 的 一 个 频率 在 30KHz ~500MHz 之 间 的 脉冲 信号 ， 该 
信和 号 可 以 唤醒 PCle 设备 。 在 许多 PCIe 设备 中 ， 并 不 含有 WAKE# 信 号 ， 此 时 需要 使 用 Beacon 机 制 唤醒 PCle 设备 。 
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于 LOs fe 态 ， 以 降低 功 耗 。 
， 发送 逻 辑 TX 状态 机 
LOs 的 发 送 状 态 机 如 图 8-12 所 示 ， 该 状态 机 由 Tx_LOs.Entry 、Tx_LOs.Idle 和 Tx_LOs.FTS 
状态 组 成 。 


Entry TX_LOs.Entry TX_LOs.Idle TX_LOs.FTS 


图 8-12 1L0s 的 发 送 状 态 机 

PCIe 设备 处 于 10 状态 发 现 链 路 为 临时 “空间 ”状态 时 ,将 进入 Tx_L0s.Entry 状态 。 处 
于 该 状态 时 ， 发 送 逻 辑 TX 首先 向 对 端 发 送 1 或 者 2 个 EIOS 序列 9? ， 之 后 进入 Electrical Idle 
状态 。 再 经 过 20ns 延 时 后 ,发送 逻辑 TX 进入 Tx_LOs.Idle 状态 

当 发 送 罗 辑 TX 处 于 Tx_L0s.Idle 状态 时 ， 如 果 PCIe 设备 需要 发 送 数据 报 广 ， 发 送 逻 辑 
TX 将 退出 Tx_LOs.Idle 状态 ， 进 入 Tx_L0s.FTS 状态 。 发 送 逻 辑 TX 处 于 Tx_L0s.FTS 状态 时 ， 
向 对 端 顺序 发 送 N_FTS 个 FTS 序列 8 和 1 个 SKP 序列 之 后 ,将 进入 10 状态 。 

2. 接收 逻辑 RX 状态 机 

L0s 的 接收 状态 机 如 图 8-13 所 示 , 该 状态 机 由 Rx_L0s.Entry、Rx_L0s.Idle 和 Rx_ 
LOs.FTS 状态 组 成 。PCIe 设备 可 以 从 L0s 状态 进入 L0 或 者 Recovery 状态 。 


RX_LOs.FTS 


Recovery 


RX_LOs.Idle 


Entry 


RX_L0s.Entry 


图 8-13 ”10s 的 接收 状态 机 

接收 逻辑 RX 处 于 IL0 状态 时 ， 如 果 收 到 1 个 EIOS 序列 后 ,将 进入 Rx_L0s.Entry 状态 
接收 逻辑 RX 在 Rx_L0s.Entry 状态 经 过 一 段 延 时 后 ,将 进入 Rx_LOs.Idle 状态 。 

接收 逻辑 RX 在 Rx_L0s.Idle 状态 中 将 持续 监测 接收 链 路 ， 如 果 发 现 对 端 设 备 的 发 送 逻 
辑 TX 退出 “Electrical Idle” 状态 时 ， 接 收 逻 辑 RX 将 进入 Rx_L0s.FTS 状态 。 

当 接收 逻辑 RX 处 于 Rx_LOs.FTS 状态 时 ，PCIe 链 路 的 每 一 个 Lane 都 将 收 到 N_FTS 个 
FTS 序列 ， 接 收 逻 辑 RX 使 用 这 些 FTS 序列 重新 获得 Bit/Symbol Lock。 如 果 对 端 发 送 逻 辑 TX 
发 送 的 FTS 序列 不 足 ， 接 收 逻 辑 RX 将 无 法 成 功 获 得 Bit/Symbol Lock， 此 时 PCIe 设备 将 进 
人 Recovery 状态 。 

当 接 收 逻 辑 RX 收 到 足够 数量 的 FTS 序列 ， 又 收 到 了 一 个 SKP 序列 后 (该 SKP 序列 的 
作用 是 De-Skew) ， 将 从 Rx_LOs.FTS 状态 迁移 到 L0 状态 。 


8.3.4 L1 状态 


L1 状态 是 一 个 比 L0s 状态 使 用 功 耗 更 低 的 状态 ，PCle 设备 从 L1 状态 恢复 到 10 状态 ， 
比 L0s 状态 恢复 到 L0 状态 的 延 时 更 长 。PCIe 设备 进入 或 者 退出 该 状态 可 以 不 需要 系统 软件 


名 ”当前 PCIe 链 路 为 2.5GT/s 时 发 送 1 个 EIOS 序列 ， 否 则 发 送 2 个 EIOS 序列 。 
如 果 Link Control 寄存 器 的 Extended Sync 位 为 1 时 ， 发 送 部 件 将 向 对 端 发 送 4096 个 FTS 序列 。 
PCIe 规范 规定 这 上段 延 时 为 Tyx_jpLg_mN (最 小 值 为 20 ns)。 


OO 
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的 干预 。 当 然 系统 软件 也 可 以 通过 设置 某 些 寄存 器 ,使 PCIe 链 路 的 两 端 设 备 同 时 进入 LI1 状 
态 。 在 PCIe 总 线 中 ，L1 状态 是 一 个 可 选 状态 。 

其 中 只 有 下 游 设备 (EP 或 者 Switch 的 上 游 端 口 ) 可 以 主动 “进入 LI1 状态 ”， 而 上 游 设 
备 (RC 或 者 Switch 的 下 游 端 口 ) 必须 与 下 游 设 备 进行 协商 后 才能 进入 Ll 状态 。 当 下 游 设 
备 满足 以 下 条 件 时 ， 可 以 进入 Ll 状态 。 

(1) PCIe 设备 支持 Ll 状态 。 

(2) PCIe 设备 没有 准备 发 送 的 TLP 和 DLLP。 

(3) 如 果 下 游 设 备 是 一 个 Switch ， 这 个 Switch 的 所 有 下 游 端 口 处 于 Ll 或 者 更 高 一 级 的 

而 上 游 设 备 需要 经 过 协商 才能 进入 LI 状态 。 

(1) 首先 下 游 设备 向 上 游 设 备 发 送 PM_ Active_State Request_L1 报 文 。 

(2) 上 游 设备 收 到 这 个 DLLP 报 文 后 ， 如 果 该 上 游 设 备 可 以 进入 Ll 状态， 则 向 下 游 设 
备 发 送 PM_Request_Ack 报 文 ;如 果 不 能 进入 ， 则 发 送 PM_Active_State_Nak 报 文 。 

在 PCIe 总 线 中 ，L1 状态 由 LL.Enty 和 Ll.Idle 两 个 子 状态 组 成 ， 如 图 8-14 所 示 。 


pm 一 [IE re | [ES 
图 8-14 Ll 状态 机 

PCIe 设备 从 L0 状态 首先 进入 Ll.Entry 状态 。PCIe 设备 处 于 Ll.Entry 状态 时 ， 发 送 逻 辑 
TX 处 于 Electrical Idle 状态 。PCIe 设备 在 此 状态 停留 20ns 后 ， 进 入 Ll.Idle 状态 。 接 收 逻 辑 
在 Ll.Idle 状态 中 将 持续 监测 接收 链 路 ， 如 果 发 现 其 对 端 发 送 逻 辑 TX 退出 “Electrical Idle” 
状态 时 ， 将 从 L1l.Idle 状态 首先 迁移 到 Recovery 状态 ， 而 不 是 L0 状态 。 

PCIe 设备 处 于 该 状态 时 ， 其 发 送 逻 辑 TX 可 以 处 于 高 阻抗 或 者 低 阻 抗 模 式 ， 而 其 接收 逻 
辑 RX 必须 处 于 低 阻 抗 模式 。 


8.3.5 12 状态 


当 PCIe 设备 处 于 12 状态 时 ,使 用 的 功 耗 低 于 Ll 状态 , 但 是 恢复 到 10 状态 的 延 时 更 长 。 当 
PCIe 设备 处 于 12 状态 时 ， 需 要 首先 迁移 到 Detect 状态 ， 重 新 进行 链 路 训练 。12 状态 是 一 个 可 选 
状态 。L2 状态 机 由 L2.Idle 和 12.TransmitWake 两 个 子 状态 组 成 ， 如 图 8-15 所 示 。 


Entry L2.1dle L2.TransmitWake 


图 8-15 ”12 状态 机 

在 12.Idle 状态 中 ， 接 收 逻 辑 RX 的 端 接 必须 处 于 低 阻 抗 模式 ， 而 发 送 逻 辑 TX 必须 在 E- 
lectrical Idle 状态 中 至 少 停留 20ns。 当 一 个 EP、Switch 或 者 RC 的 某 个 端口 被 唤醒 后 ， 将 首 
先 从 L2.Idle 状态 迁移 到 L2.TransmitWake 状态 。 

PCIe 设备 进入 L2.TransmitWake 状态 后 ， 将 向 RC 端口 或 者 Switch 的 下 游 端口 发 送 Bea- 
con 信号 。 当 RC 端口 收 到 这 个 Beacon 信号 后 ， 将 进入 Detect 状态 进行 链 路 训练 ， 而 当 
Switch 收 到 Beacon 信和 号 被 唤醒 后 ， 其 上 游 端 口 将 进入 L2.TransmitWake 状态 ， 并 向 上 游 链 路 
转发 这 个 Beacon 信号 ， 并 逐 级 唤醒 PCIe 链 路 的 上 游 设备 。 

当 EP 或 者 Switch 上 游 端 口 的 接收 逻辑 RX， 发 现 其 对 端 发 送 逻 辑 TX 退出 Electrical Idle 
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状态 时 ， 将 从 L2.TransmitWake 状态 迁移 到 Detect 状态 ， 重 新 进行 链 路 训练 。 


8.4 PCI PM 机 制 


PCIe 总 线 与 PCI 总 线 使 用 的 PCI - PM 管理 机 制 兼 容 。 在 PCIe 设备 的 扩展 配置 空间 中 定 
义 了 Power Management Capabilities 结构 ， 该 结构 中 含有 一 系列 寄存 器 ， 这 些 寄存 器 的 详细 说 
明 见 第 4.3.1 节 。 

系统 软件 通过 修改 PMCSR 寄存 器 的 Power State 字段 ， 可 以 使 PCIe 设备 进入 不 
状态 D-State， 如 DO0、D1、D2 和 D3 状态 。 其 中 D0 是 正常 工作 状态 ， 功 耗 最 高 ， 而 D1、D 
和 D3 为 低 功 耗 状态 。 其 中 D1 的 休眠 等 级 最 低 ， 功 耗 相 对 较 高 ， 而 D3 的 休眠 等 级 最 高 ， 
耗 相 对 较 低 。D - State 的 状态 转换 关系 如 图 8-16 所 示 。 


D0 
Uninitializated 


图 8-16 D-State 状态 机 


值得 注意 的 是 ， 当 PCIe 设备 进行 状态 迁移 时 ，PCIe 链 路 也 需要 视 情 况 进 入 相应 的 状 
态 ， 如 进入 Ll 或 者 12 等 状态 。 


8. 4.1 PCIe 设备 的 D-State 


PCIe 设备 的 D-State 由 DO0、D1、D2 和 D3 状态 组 成 。 其 中 D0 状态 由 DO 和 
i i 两 个 子 状态 组 成 ， 而 D3 状态 由 D3,, 和 D3, 两 个 子 状态 组 成 。 

0 D0 状态 

PCIe 设备 必须 支持 D0 状态 ， 该 状态 由 DO0 ww 和 D0 ,两 个 子 状态 组 成 。 当 PCIe 设 
备 处 于 DO0 wu 状态 时 ， 该 PCIe 设备 并 没有 被 系统 软件 使 能 ， 此 时 该 PCIe 设备 仅 能 接收 
配置 读 写 请 求 TLP， 不 能 主动 发 出 其 他 TLP。 此 时 该 PCIe 设备 配置 寄存 器 的 Command 寄存 
器 为 复位 值 0x00。 此 时 虽然 PCIe 设备 已 经 被 加 电 ， 但 是 并 不 能 正常 使 用 。 

当 PCIe 设备 处 于 D0., 状 态 时 ，PCIe 设备 处 于 正常 工作 模式 ， 并 没有 任何 节 电 措施 。 
但 是 PCIe 设备 仍然 可 以 使 用 ASPM 机 制 ， 将 链 路 状态 迁移 到 L0s 或 者 Ll 状态 ， 以 降低 功 
耗 。 值 得 注意 的 是 ，ASPM 机 制 与 PCI PM 机 制 是 独立 的 。 

当 PCIe 设备 进行 复位 后 ， 该 设备 将 首先 进入 DO ,us 状态 。 系 统 软件 通过 修改 PMC- 
SR 寄存 器 的 Power State 字段 ， 也 可 以 使 设备 从 Dahot ,状态 迁移 到 该 状态 。 值得 注意 的 是 
D3cold 状态 迁移 到 该 状态 的 过 程 与 复位 操作 等 效 。 当 系统 软件 改写 Command 寄存 器 的 状态 
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位 使 能 PCIe 设备 后 ， 该 设备 从 DO usa 迁 移 到 D0 状态。 

2. D1 和 D2 状态 

D1 和 D2 状态 分 别 为 PCIe 设备 的 轻 度 和 重度 休眠 状态 。 这 两 个 状态 为 PCIe 设备 的 可 选 
状态 ，PCIe 设备 处 于 D1 状态 时 的 功 耗 高 于 D2 状态 。 

PCIe 设备 处 于 这 两 个 状态 时 ， 除 了 PME 消息 之 外 ， 不 能 主动 发 送 其 他 TLP; 除了 接收 
配置 请 求 TLP 外 ， 不 能 接收 其 他 TLP。 当 PCIe 设备 处 于 这 两 种 状态 时 ， 可 以 向 RC 发 送 
PME 消息 ， 通 知 系统 软件 该 PCIe 设备 进入 休眠 状态 。 当 PCIe 设备 进入 D1 或 者 D2 状态 时 ， 
PCIe 链 路 将 进入 Ll 状态 。PCIe 设备 可 以 从 D1 和 D2 状态 直接 返回 到 D0,,,, 状 态 。 

3，D3 状态 

PCIe 设备 必须 支持 D3 状态 ，D3 状态 由 D3%,, 和 D3, 两 个 子 状态 组 成 。PCIe 设备 处 于 
D3, ,状态 与 处 于 D1/D2 状态 时 的 功能 类 似 ， 只 是 PCIe 设备 只 能 从 D3, 状 态 返 回 DOs 
状态 ， 而 不 能 返回 D0,,,. 状 态 。 对 于 PCIe 设备 ， 从 D3,, 状 态 返 回 DOsiwes 状 态 的 过 程 相 
当 于 热 复位 。 

当 PCle 设备 的 Vcc 电源 被 移 除 时 ，PCle 设备 无 论处 于 何 种 状态 ， 都 将 进入 D3 状态 。 
值得 注意 的 是 一 个 PCle 设备 使 用 两 种 电源 V. .和 V,.，YV. 电 源 被 移 除 并 不 意味 着 PCIe 设备 
被 完全 下 电 。 

有 些 PCIe 设备 在 处 于 D3 状态 时 仍然 可 以 发 出 PME 消息 ， 此 时 这 个 PCIe 设备 负责 发 
送 PME 消息 的 功能 模块 必须 使 用 V,, 而 不 是 V.. 进 行 供电 。 


8. 4. 2 D-State 的 状态 迁移 


如 图 8-16 所 示 ，PCIe 设备 可 以 进行 D-State 的 状态 迁移 。 大 多 数 D-State 的 状态 迁移 都 
是 系统 软件 通过 修改 PMCSR 寄存 器 的 Power State 字段 实现 的 ， 但 是 仍然 有 些 状态 迁移 采用 
了 其 他 方式 。 

e 使 能 Command 寄存 器 的 命令 位 ， 可 以 使 设备 从 DO aaaa 状 态 迁 移 到 D0 状态 。 

e PCIe 设备 的 V_ 被 移 除 时 ，D3， 状 态 将 迁移 到 D3 状态。 

。 当 PCIe 被 唤醒 ，V,。 重 新 上 电 之 后 ，PCIe 设备 将 从 D3.,, 状 态 迁移 到 D0 ,状态 。 

当 PCIe 设备 进行 D-State 状态 迁移 时 ，PCIe 链 路 的 状态 也 可 能 随 之 变化 。PCIe 设备 的 
D-State 状态 与 PCIe 链 路 状态 的 对 应 关系 如 表 8-3 所 示 。 

表 8-3 D-State 状态 与 PCle 链 路 状态 的 对 应 关系 


下 游 设备 的 D-State 上 游 设备 可 能 的 D-State 可 能 的 链 路 状态 
D0 D0 10, LOs, L1, 1L2/L3 Ready 
D1 DO ~DI L1, 12/L3 Ready 
D2 D0 ~ D2 L1, 12/L3 Ready 
D3nhu D0 ~ D3 L1, 12/13 Ready 
D3 D0 ~ D3 12, 13 


由 上 表 可 以 发 现 ， 上 游 设 备 所 处 的 D-State 等 级 小 于 或 等 于 下 游 设备 的 休眠 等级。 如 下 
游 设备 处 于 D1 状态 时 ， 上 游 设备 不 能 处 于 比 D1 更 高 的 休眠 等 级 ， 如 D2 或 者 D3 状态 。 

当 设备 处 于 D0 ~ D3 状态 时 ，ASPM 机 制 可 以 根据 链 路 的 使 用 情况 进行 链 路 状态 的 迁 
移 ， 而 无 需 软 件 的 干预 。 下 文 以 PCle 设备 从 D0 迁移 到 D1 说 明 D-State 进行 状态 迁移 时 ， 
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PCIe 链 路 如 何 进行 状态 迁移 。 

当 系 统 软件 修改 PMCSR 寄存 器 的 Power State 字段 ， 将 PCIe 设备 从 D0 迁移 到 D1 状态 
时 ， 上 游 设备 与 下 游 设 备 将 协调 工作 ， 完 成 PCIe 设备 的 状态 切换 ， 并 改变 链 路 的 状态 ， 其 
实现 过 程 如 图 8-17 所 示 。 


TDP!PDT Downstream component 
Upstream component sends 1 5 i 
begins L1 transition process 


configuration write request 
Downstream component sends 


1 
1 

1 

| completion for configuration 
1 Write Request 
1 

1 

1 


Downstream component accumulates minimum 
credits and blocks scheduling ofnew TLPs 
1 
1 Downstream component waits to 
receive ACK for last TLP 
| PM_Enter_L1 DLLPS send repeatedly 


Upstream component blocks 


Scheduling of new TLPs 
Upstream component receives 
acknowledgment for last TLP 

Upstream component sends 


Downstream component waits for 
PM_ Requeset_Ack DLLP; 
acknowledging the 

PM_Enter LI DLLP 


PM_ Request_Ack DLLP 
Repeatedly until it sees 


electrical idle Downstream component sees | Inactive 


PM_ Requeset_Ack DLLP; 
-HH disables DLLP; TLP | 
transmission and brings Active 


Physical Layer to electrical idle 


Upstream component completes 
L1 transition: disables DLLP 


1 
1 

TLP transmission and brings HH 
Physical Layer to electrical idle | 

图 8-17 PCle 设备 从 D0 到 D1 的 状态 迁移 


(1) 上 游 设 备 向 下 游 设 备 发 送 配置 写 请 求 ， 改 变 下 游 设 备 PMCSR 寄存 器 的 Power State 
字段 ， 从 而 使 下 游 设备 从 D0 状态 迁移 到 D1 状态 。 

(2) 下 游 设 备 收 到 这 个 配置 写 请 求 TLP 后 ， 将 改变 PMCSR 寄存 器 的 Power State 字段 ， 
并 向 上 游 设备 发 送 配 置 写 完 成 TLP。 这 个 配置 写 完 成 TLP 首先 需要 经 过 数据 链 路 层 ， 并 从 对 
端 获得 足够 的 发 送 Credit? 后 ， 将 这 个 配置 写 完 成 TLP 通过 数据 链 路 层 发 送 到 对 端 。 

(3) 下 游 设备 的 事务 层 收 到 数据 链 路 层 的 确认 后 ， 得 知 配置 写 完成 TLP 已 经 被 上 游 设 
备 正确 接收 后 ( 详 见 ACK/NAK 协议 ) ， 将 挂 起 下 游 设 备 的 事务 层 。 并 向 上 游 设 备 连续 发 送 
PM_Enter_L1 DLLP， 同 时 等 竺 来自 上 游 设 备 的 PM_Request_Ack 报 文 。 

(4) 上 游 设 备 收 到 下 游 设 备 的 PM_Enter_L1 DLLP 后 ， 首 先 禁 止 发 送 新 的 TLP， 并 等 待 
之 前 发 送 的 Non-Post TLP 得 到 确认 后 ， 挂 起 上 游 设备 的 事务 层 ， 并 向 下 游 设备 连续 发 送 PM_ 
Request_Ack DLLP。 

(5) 下 游 设 备 在 没有 收 到 上 游 设 备 的 PM_Request_Ack DLLP 之 前 ， 虽 然 事务 层 已 经 被 
挂 起 , 但 是 数据 链 路 层 和 物理 层 仍然 可 以 正常 工作 ， 此 时 数据 链 路 层 可 以 正确 接收 来 自 上 游 


日 发 送 Credit 的 详细 说 明 见 第 9 章 流 量 控 制 。 
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端口 的 DLLP， 并 发 送 ACKZNAK 和 流量 控制 相关 的 一 些 DLLP。 

(6) 当下 游 设备 收 到 PM_Request_Ack DLLP 后 ， 将 停止 发 送 PM_Enter_L1 DLLP， 挂 起 
数据 链 路 层 ， 然 后 将 物理 层 置 为 Electrical Idle 状态 。 

(7) 上 游 设备 发 现 其 接收 链 路 处 于 Hlectrical Idle 状态 时 ， 将 停止 发 送 PM_Request_Ack 
DLLP ， 并 挂 起 数据 链 路 层 ， 然 后 将 物理 层 置 为 Electrical Idle 状态 。 此 时 PCIe 链 路 将 进入 Ll 
状态 。 

当 PCIe 链 路 处 于 L1 状态 时 ， 如 果 系 统 软件 需要 改变 下 游 PCIe 设备 PMCSR 寄存 器 的 
Power State 字段 ，PCle 链 路 需要 首先 从 Ll 状态 迁移 到 正常 工作 状态 L0， 下游 设备 才能 接收 
这 个 配置 写 请 求 TLP。 

PCIe 设备 其 他 D-State 状态 的 迁移 过 程 与 此 大 同 小 异 ， 详 见 PCle 总 线 规范 ， 本 节 对 此 不 
做 进一步 描述 。 


8.5 小 结 


本 章 重点 介绍 PCIe 总 线 的 LTSSM 状态 机 ， 该 状态 机 的 迁移 模型 较为 复杂 。 本 章 仅 介绍 
了 该 状态 机 的 基本 工作 路 径 ， 对 此 部 分 有 兴趣 的 读者 可 以 阅读 PCIe 总 线 规范 ， 进 一 步 了 解 
相关 内 容 。 

LTSSM 状态 机 在 PCIe 总 线 规范 中 处 于 核心 地 位 ， 深 入 理解 该 状态 机 的 运转 模型 ， 有 利 
于 底层 软件 工程 师 深 入 理解 PCIe 设备 的 工作 状态 ， 从 而 开发 出 质量 较 高 的 程序 。 

本 章 还 使 用 一 定 篇 幅 介 绍 了 PCIle 总 线 的 电源 管理 模型 。 目 前 电源 管理 已 经 成 为 计算 机 
体系 结构 的 热点 。 一 个 合理 的 电源 管理 模型 需要 软 硬 件 的 共同 参与 ， 但 是 硬件 设计 仍然 决定 
了 电源 管理 模型 的 节 电 效率 。 
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第 9 革 流量 控制 


流量 控制 (Flow Control) 的 概念 起 源 于 网 络 通信 。 一 个 复杂 的 网 络 系统 由 各 类 设备 
(如 交换 机 、 路 由 右 、 核 心 网 ) ， 与 这 些 设备 之 间 的 连接 通路 组 成 。 从 数据 传输 的 角度 来 看 ， 
整个 网 络 中 具有 两 类 资源 ， 一 类 是 数据 通路 ， 另 一 类 是 数据 缓冲 。 

数据 通路 是 网 络 上 最 珍贵 的 资源 ， 直 接 决定 了 数据 链 路 可 能 的 最 大 带宽 ;， 而 数据 缓冲 是 
另外 一 个 重要 的 资源 。 当 一 个 网 络 上 的 设备 从 一 点 传送 到 另外 一 点 时 ， 需 要 通过 网 络 上 的 车 
二 节点 才能 最 终 到 达 目 的 地 。 在 这 些 网 络 节 点 中 含有 缓冲 区 ， 暂 存在 这 个 节点 中 没有 处 理 完 
毕 的 报 文 。 网 络 设备 使 用 这 些 数据 缓冲 ， 可 以 搭建 数据 传送 的 传送 流水 线 ， 从 而 提高 数据 传 
送 性 能 。 最 初 在 网 络 设备 中 只 为 一 条 链 路 提供 了 一 个 缓冲 区 ， 如 图 9-1 所 示 。 


Nodel Node 2 Node3 Node 4 Node5 
A B00 Blocked 


图 9-1 基于 单数 据 通路 的 数据 传递 

当 网 络 设备 使 用 单数 据 通路 进行 数据 传递 时 ， 假 设 在 该 通路 中 正在 传递 两 个 数据 报 文 ， 
分 别 是 A 和 B。 其 中 数据 报 文 B 需要 经 过 Nodel ~5 才能 到 达 最 终 的 目的 地 ， 而 数据 报 文 B 
在 经 过 Node 3 时 发 现 由 于 Node 3 正在 向 Node 4 发 送 一 个 数据 报 文 A。 从 而 数据 报 文 B 到 达 
Node 3 后 ， 由 于 Node 4 的 接收 缓存 被 数据 报 文 A 占用 ， 而 无 法 继续 传递 。 此 时 虽然 在 整个 
数据 通路 中 ，Node 4 和 Node 5 之 间 的 通路 是 空闲 的 ， 但 是 报 文 B 还 是 无 法 通过 Node 3 和 4， 
因为 在 Node 4 中 只 有 一 个 数据 缓冲 ， 而 这 个 数据 缓冲 正在 被 报 文 A 使 用 。 

使 用 这 种 数据 传送 规则 会 因为 一 个 节点 的 数据 缓冲 被 占用 ， 而 影响 了 后 继 报 文 的 数据 传 
递 。 为 了 解决 这 个 问题 ， 在 现代 网 络 节点 中 设置 了 多 个 虚 通 路 VC， 不 同 的 数据 报 文 可 以 使 
用 不 同 的 通路 进行 传递 。 从 而 有 效 解决 了 单数 据 通路 带 来 的 问题 ， 基 于 多 通路 的 数据 传递 如 
图 9-2 所 示 。 


链 路 1 链 路 2 链 路 3 链 路 4 


Nodel / Node 2 Node 3 / Node 4 pé Node 5 


1 于 1 1 
1 避 1 1 凡 1 已 VC1 
es i Rs 本 报 文 B 的 目的 地 
2 口 2 口 2 2 口 VC2 


Am B 加 Blocked 
图 9-2 ”基于 双 数 据 通路 的 数据 传递 

如 上 图 所 示 ， 所 谓 多 通路 是 指 在 每 一 个 节点 内 设置 两 个 以 上 的 缓存 。 上 例 中 设置 了 两 个 
缓存 ， 报 文 A 经 过 Node 1 ~5 时 使 用 缓存 2 进行 缓存 ， 然 后 进行 数据 传递 ， 而 报 文 B 使 用 组 
存 1 进行 缓存 。 因 此 虽然 报 文 A 因为 某 种 原因 不 能 继续 传递 ， 也 只 是 将 报 文 阻塞 在 缓存 2 
中 ， 而 不 影响 报 文 B 的 数据 传递 。 
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所 谓 VC 是 指 缓存 到 缓存 之 间 的 传递 通路 。 如 图 9-2 所 示 的 例子 中 含有 两 个 VC， 分 别 
是 VC1 和 VC2。 其 中 VC1 对 应 节点 间 缓 存 1 到 缓存 1 的 数据 传递 ， 而 VC2 对 应 缓存 2 到 组 
存 2 的 数据 传递 。VC 间 的 数据 传递 ， 如 Node 1 的 缓存 1/2 到 Node 2 的 缓存 1/2 ， 都 要 使 用 
实际 的 物理 链 路 “ 链 路 1”， 这 也 是 将 VC 称 为 “ 虚 ” 通 路 的 主要 原因 。 

在 一 个 实际 的 系统 中 ， 虚 通路 的 使 用 需要 遵循 一 定 的 规则 。 如 在 PCIe 总 线 中 ， 将 不 同 
的 数据 报 文 根据 TC 分 为 8 类 ， 并 约定 这 些 TC 报 文 可 以 使 用 哪些 VC 进行 数据 传递 。 在 PCIe 
总 线 中 使 用 TCZVC 的 映射 表 ， 决 定 TC 与 VC 的 对 应 关系 。 

PCle 总 线 规定 同一 类 型 的 TC 报 文 只 能 与 一 条 VC 对 应 ， 当 然 从 理论 上 讲 ,不 同 的 TC 
报 文 可 以 与 不 同 的 VC 对 应 ， 也 可 以 实现 一 种 自 适应 的 算法 根据 实际 情况 实现 TC 报 文 和 VC 
的 对 应 关系 。 只 是 使 用 这 种 方法 需要 付出 额外 的 硬件 代价 ， 效 果 也 不 一 定 明显 。 

下 文 以 图 9-2 所 示 的 数据 传递 为 例 ， 进 一 步 对 此 说 明 相同 类 型 的 报 文 使 用 不 同 VC 的 情 
况 。 假 设 报 文 A 和 B 属于 相同 种 类 的 报 文 ， 但 是 报 文 A 使 用 VC1， 而 报 文 B 使 用 VC2。 首 
先 报 文 A 传递 到 Node 4 后 被 阻塞 。 而 报 文 B 使 用 的 VC 和 报 文 A 使 用 的 VC 不 同 ， 报 文 B 
最 终 也 会 到 达 Node 4。 

由 于 报 文 A 和 报 文 B 属于 相同 类 型 的 报 文 ，Node 4 阻塞 报 文 B 的 概率 非常 大 ， 因 为 
Node 4 已 经 阻塞 了 报 文 A。 阻 塞 报 文 A 的 原因 在 很 大 概率 上 也 会 对 报 文 B 适用 。 此 时 两 个 
虚 通 路 都 被 同一 种 类 型 的 报 文 阻塞 ， 其 他 报 文 将 无 法 通过 。 因 此 在 实际 应 用 中 ， 相 同类 型 的 
数据 报 文 多 使 用 同一 个 VC 进行 数据 传递 ， 而 在 PCIe 总 线 中 ， 一 个 TC 只 能 对 应 一 个 VC。 

目前 多 通路 技术 的 应 用 已 经 普遍 应 用 到 网 络 传输 中 ， 虚 通路 是 一 种 防止 节点 拥塞 的 有 效 
方法 。 但 是 在 网 络 传送 中 ， 还 存在 一 种 不 可 避免 的 拥塞 现象 ， 即 某 一 条 链 路 或 者 某 个 节点 是 
整个 系统 的 瓶颈 。 

我 们 假设 图 9-2 中 Node 4 将 报 文 转发 到 Node 5 的 速度 低 于 Node 3 发 送 报 文 的 速度 。 在 
这 种 情况 下 ，Node 4 将 成 为 整个 传送 路 径 上 的 瓶颈 ， 无论 Node 4 中 的 缓存 1 和 2 有 多 大 ， 
总 会 被 填 满 ， 从 而 造成 节点 拥塞 。 

当 缓存 填 满 后 ， 如 果 Node 3 继续 向 Node 4 发 送 报 文 时 ，Node 4 将 丢弃 这 些 报 文 ， 之 后 
Node 3 将 会 择 时 重 发 这 个 报 文 ， 而 Node 4 仍然 会 继续 丢弃 这 个 报 文 ， 这 种 重复 丢弃 的 行为 
将 极 大 降低 网 络 带 宽 的 利用 率 ， 而 且 Node 3 也 会 成 为 网 络 中 新 的 瓶颈 ， 从 而 引发 连锁 反应 ， 
造成 整个 网 络 的 拥塞 。 为 了 避免 这 类 事件 发 生 ， 网 络 中 的 各 个 组 成 部 件 需 要 对 数据 传送 进行 
一 定 的 流量 控制 ， 合 理 地 接收 和 发 送 报 文 。 

如 上 文 所 述 ， 在 网 络 中 有 两 类 资源 ， 一 类 是 数据 通路 ， 另 一 类 是 数据 缓冲 。 而 流量 控制 
的 作用 是 合理 地 管理 这 两 类 资源 ， 使 这 些 资 源 能 够 被 有 效 利 用 。 


9.1 流量 控制 的 基本 原理 


目前 流量 控制 从 理论 到 实现 大 多 基于 多 通道 技术 ， 本 节 也 仪 讨论 基于 多 通道 的 流量 控制 
(FCVC，Flow-Controlled Virtual Channels) 的 基本 原理 。 

流量 控制 的 主要 作用 是 在 发 送 端 和 接收 端 进行 数据 传递 时 ， 合 理 地 使 用 物理 链 路 ， 避 免 
因为 接收 端 缓冲 区 容量 不 足 而 丢弃 来 自发 送 端的 数据 ， 从 而 要 求 发 送 端 重新 发 送 已 经 发 送 过 
的 报 文 ， 并 最 终 有 效 地 利用 网 络 带 宽 。 
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目前 几乎 所 有 流量 控制 算法 的 核心 都 是 根据 接收 端 缓冲 区 的 容量 ， 向 发 送 端 提供 反馈 。 
而 发 送 端 根据 这 个 反馈 ， 决 定向 接收 端 发 送 多 少数 据 。 这 些 流量 控制 算法 都 力求 发 送 的 每 一 
个 数据 报 文 都 能 够 被 接收 端正 确 接收 ， 而 不 会 被 接收 端 因 为 缓冲 不 足 而 丢弃 。 使 用 流量 控制 
机 制 并 不 能 提高 网 络 的 峰值 带宽 ， 相 反 还 会 降低 网 络 的 带宽 ， 但 是 可 以 有 效 减少 数据 报 文 的 
重新 发 送 ， 从 而 保证 网 络 带宽 被 充分 利用 。 

流量 控制 的 目标 是 在 充分 利用 网 络 带宽 的 前 提 下 ， 尽 量 减 少数 据 报 文 因为 接收 端 缓存 容 
量 不 足 而 被 丢弃 的 情况 ， 因 为 此 时 数据 发 送 端 将 会 择 时 重新 传送 这 些 丢 弃 的 报 文 ， 从 而 降低 
了 数据 通路 的 利用 率 。 

为 了 实现 流量 控制 ， 数 据 接收 端 需要 及 时 地 向 发 送 端 反馈 一 些 信息 ， 发 送 端 依 此 决定 ， 
是 否 能 够 向 接收 端 继续 发 送 数据 。 这 些 反 馈 信 息 也 需要 占用 一 定 的 数据 通路 带宽 。 但 是 采用 
这 种 方法 可 以 有 效 避 免 数 据 报 文 的 丢失 与 重 发 ， 从 而 在 整体 上 提高 了 数据 通路 的 利用 率 。 流 
量 控制 针对 端 到 端的 数据 传递 ， 目 前 流行 的 流量 控制 方法 共有 两 种 ， 分 别 为 Rate-Based 机 制 
和 Credit-Based 机 制 。 


9.1.1 Rate-Based 流量 控制 


Rated-Based 机 制 适合 “可 预知 带宽 ”的 数据 传递 方式 ， 而 Credit-Based 机 制 更 加 适合 
“ 突 发 数据 传送 ”。 下 面 将 以 图 9-3 所 示 的 实例 简单 介绍 Rate-Based 机 制 。 


图 9-3 Rate-based 流量 控制 机 制 

假设 Node 1 与 Node 2 之 间 共 存在 5 个 VC， 即 在 链 路 1 的 两 端 设置 了 5 组 缓存 。 而 这 5 
个 VC 共享 一 个 物理 通路 ， 即 链 路 1 。 为 方便 起 见 ， 假 设 链 路 1 的 带宽 为 1， 而 在 系统 初始 
化 时 ,将 VC1 ~5 可 以 使 用 的 带宽 BCVC 都 设 为 1/4( 即 Rate 值 为 1/4) ， 而 且 每 一 个 VC 使 
用 的 最 大 数据 传送 率 不 能 超过 BCVC。 

在 某 些 情况 下 ， 由 于 在 Node 1 中 ,每 个 VC 的 BCVC 最 大 值 为 1M4， 因 此 Node 1 可 以 向 
Node 2 发 送 的 数据 带宽 总 和 为 5 人 4 ， 大 于 链 路 1 所 能 提供 的 峰值 带宽 ， 因 此 链 路 1 将 可 能 成 
为 瓶颈 ， 从 而 造成 网 络 拥塞 。 此 时 来 自 Node 1 的 数据 报 文 必然 会 阻塞 在 各 自 VC 的 发 送 缓冲 
中 ， 并 可 能 出 现 报 文 重 传 现象 。 

Rete-Based 机 制 使 用 “ 自 适 应 ”调解 的 办 法 有 效 防 止 了 这 种 网 络 拥塞 。Rate-Based 机 制 
规定 每 一 个 VC 在 发 送 一 定数 量 的 报 文 后 ， 将 主动 地 将 相应 VC 的 Rate 调整 为 Rate 减 去 
ADR (Additive Decrease Rate) ， 直 到 Rate 等 于 MCR (Minimum Cell Rate)2;， 当 Node 2 的 


@ 在 本 节 的 实例 中 ,5 x MCR<1。 即 所 有 VC 使 用 的 MCR 之 和 小 于 或 等 于 链 路 总 带 


[sa 
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Egress 端 口 并 不 拥塞 时 ，Node 2 将 向 Node 1 的 对 应 VC 发 出 正 问 反馈 ， 通知 该 VC 可 以 适当 
提高 数据 传送 率 ， 当 Node 1 的 VC 收 到 这 个 正 向 反馈 后 ， 将 更 新 其 BCVC。 

假设 在 本 例 中 MCR 为 x， 当 链 路 1 严重 拥塞 时 ，Node 2 不 会 向 Node 1 的 所 有 VC 发 出 
正 向 反馈 ， 最 终 Node 1 所 有 VC 的 Rate 都 将 降 为 MCR， 此 时 Node 1 将 不 会 向 Node 2 发 送 过 
多 的 数据 报 文 ; 当 链 路 1 并 不 拥塞 时 ，Node 2 将 向 Node 1 的 相应 VC 发 出 正 反 馈 ， 通 知 
Node 1 可 以 适当 提高 数据 报 文 的 数据 传送 率 。 

Rate-Based 流量 控制 机 制 可 以 使 用 漏 桶 (Leaky Bucket) 算法 或 者 令 牌 桶 〈(Token Buck- 
et) 算法 实现 。 使 用 令 牌 桶 算法 时 ， 一 个 设备 至 少 具有 MCR 个 令 牌 ， 这 个 设备 每 发 送 一 定 
数量 的 报 文 后 ， 将 令 牌 减少 ADR 个 ， 但 是 总 令 牌 数 不 低 于 MCR。 当 这 个 设备 收 到 下 游 设 备 
的 正 反馈 时 ， 将 增加 令 牌 数 。 

采用 Rate-Based 流量 控制 机 制 可 以 有 效 解决 “可 预知 带宽 ”的 数据 传递 。 比 如 Node 1 
向 Node 2 发 送 音 频 或 者 视频 数据 ， 这 些 音 视频 数据 占用 的 数据 带宽 基本 恒定 ， 因 此 使 用 这 
种 方法 可 以 保证 这 类 数据 报 文 的 流畅 传递 。 

而 对 于 多 数 长 度 “ 不 可 预知 ”的 突 发 数据 传递 ， 该 机 制 并 不 能 完全 适用 。 因 为 Rate- 
Based 流量 控制 的 实时 性 较 弱 ， 当 一 个 VC 需要 瞬间 传递 大 量 报 文 时 ，Rate-Bsed 机 制 不 能 
时 地 为 这 条 VC 提供 足够 的 数据 传送 率 ; 而 当 一 个 VC 拥塞 时 ， 也 不 能 及 时 地 降低 数据 传送 
率 。 因 此 使 用 Rate-Based 机 制 并 不 能 满足 网 络 上 突 发 数据 传送 的 需要 ， 此 时 需要 使 用 Credit- 
Based 机 制 对 流量 进行 控制 。 


9.1.2 ”Credit-Based 流量 控制 


为 便于 Credit-Based 流量 控制 机 制 的 讨论 ， 假 设 在 网 络 中 存在 三 类 节点 ， 分 别 是 Up- 
stream 节点 、Current 节点 和 Downstream 节点 ， 这 些 节点 之 间 通 过 实际 的 物理 链 路 互 连 , 在 
每 一 个 节点 内 部 都 使 用 两 个 VC， 其 结构 如 图 9-4 所 示 。 


Upstream 节 点 Current 节 点 Downstream 节 点 


物理 链 路 
I 


1 


ER 


图 9-4 Upstream Current 与 Downstream 节点 的 关系 


其 中 Upstream 节点 通过 物理 链 路 将 数据 报 文 发 向 Current 节点 ， 而 Current 节点 通过 物理 
链 路 将 数据 报 文 发 向 Downstream 节点 。 在 虚 通 路 的 设计 中 ， 每 个 节点 的 发 送 端口 和 接收 端 
口 之 间 具 有 分 属于 不 同 VC 的 数据 缓冲 ， 这 些 数据 缓冲 之 间 的 互 连 组 成 了 不 同 的 VC。 

Current 节点 首先 将 来 自 Upstream 节点 的 报 文 暂 存在 数据 缓冲 中 ， 然 后 再 发 送 到 Down- 
stream 节点 。 当 Upstream 节点 通过 Current 节点 ， 向 Downstream 节点 发 送 数据 报 文 时 ， 流 量 


控制 发 生 在 Upstream 节点 和 Current 节点 、Current 节点 和 Downstream 节点 之 间 ， 而 不 是 
Upstream 节 点 到 Downstream 节点 。 简 而 言 之 ， 流 量 控制 发 生 在 链 路 的 两 端 ， 基 于 端 到 端 之 
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间 ， 而 不 是 基于 节点 到 节点 间 。 

在 Upstream 市 点 、Current 节点 和 Downstream 节点 中 存在 两 个 VC， 下 文 以 其 中 的 一 个 
VC 为 例 ， 说 明 如 何 使 用 Credit-Based 机 制 进行 数据 传递 。 值 得 注意 的 是 ，Current 节点 、Up- 
stream 节点 和 Downstream 节点 只 是 一 个 相对 概念 。Current 节点 也 可 以 从 Downstream 节点 接 
收 数据 报 文 ， 而 向 Upstream 节点 转发 这 些 数据 报 文 ， 从 而 组 成 一 个 双向 通路 。 为 简便 起 见 ， 
本 章 仅 讨 论 在 单 向 通路 下 ，Credit-Based 流量 控制 机 制 的 原理 与 实现 。 

Credit-Based 机 制 基 于 “Credit” 进 行 数据 传递 ， 当 Upstream 节点 需要 发 送 数据 报 文 时 ， 
需要 具备 足够 的 Credit， 才 能 向 Current 节点 发 送 数 据 。 这 个 Credit 由 Current 节点 提供 ， 并 
与 Upstream 节点 保存 的 Credit 同步 ， 为 此 Current 节点 需要 定时 间 Upstream 发 送 “ 传 递 
Credit” 的 数据 报 文 。 

下 文 为 简便 起 见 ， 假 设 节 点 间 传 送 的 数据 报 文 ， 其 长 度 固 定 ， 而 且 每 次 只 能 传递 一 个 数 
据 报 文 。Credit-Based 机 制 需要 使 用 以 下 参数 进行 报 文 传递 。 

e Buf_Alloc 参数 。 该 参数 保存 在 Current 节点 中 接收 数据 缓冲 的 总 大 小 。Upstream 节点 

能 够 发 送 的 数据 报 文 总 数 不 能 大 于 该 参数 。 

e Crd_Bal 参数 。 该 参数 是 Upstream 节点 可 以 发 送 的 数据 报 文 数 ，Current 节点 需要 定时 
向 Upstream 节点 发 送 Credit 报 文 。Upstream 节点 收 到 该 报 文 后 ， 使 用 该 报 文 中 的 
“Credit” 同步 Crd_Bal 参数 。Upstream 节点 可 以 发 送 的 数据 报 文 数 不 能 超过 Credit_ 
Bal 人 参数。 

e Tx_Cnt 参数 。 该 参数 为 Upstream 节点 已 经 发 送 的 数据 报 文 数 。 

e Fwd_Cnt 参数 。 该 参数 为 Current 节点 转发 到 Downstream 节点 的 数据 报 文 数 。 

Credit-Based 流量 控制 使 用 的 各 个 参数 之 间 的 关系 如 图 9-5 所 示 。 


Upstream Node 


| | 
| Current Node | Downstream Node 
Tx_Cnt | -一 - Fwd_Cnt | 
| Bg | 
cD 
a Buf_Alloc 


> 
Crd_Bal=Buf Alloc- 
(Tx_Cnt—-Fwd_Cnt) 


图 9-5 使 用 Credit-Based 机 制 进行 数据 传递 


1. Upstream 节点 向 Current 节点 发 送 报 文 

Upstream 节点 向 Current 节点 发 送 报 文 时 ，Current 节点 必须 有 足够 的 缓冲 ， 而 且 Current 
节点 需要 预先 将 其 剩余 的 缓冲 数量 ， 即 Credit (其 值 为 一 个 正 整 数 ) ， 及 时 地 发 送 给 Up- 
stream 节点 。Upstream 节点 使 用 Crd_Bal 参数 保存 这 个 Credit。 

Crd_Bal 参数 的 初始 值 为 Buf_Alloc， 即 Current 节点 能 够 接收 的 最 大 报 文 个 数 ， 该 值 在 
系统 初始 化 时 由 Current 节点 发 向 Upstream 节点 。 因 此 Upstram 节点 在 流量 控制 机 制 初始 化 
完毕 后 ，Crd_Bal 参数 与 Current 节点 中 能 够 存放 的 最 大 报 文 数 相同 。 

Upstream 节点 每 成 功 发 送 一 个 数据 报 文 后 ，Crd_Bal 值 减 1， 当 Crd_Bal 参数 为 0 时 ， 
Upstream 节点 不 能 向 Current 节点 发 送 数据 报 文 。 此 时 Upstream 节点 必须 等 待 Current 节点 发 
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送 Credit 报 文 ， 更 新 Crd_Bal 参数 后 ， 才 能 继续 发 送 数据 报 文 。 

2.，Current 节点 向 Upstream 节点 发 送 Credit 

Current 节点 收 到 来 自 Upstream 节点 的 数据 报 文 后 ， 将 会 根据 链 路 的 实际 情况 ， 将 这 些 
报 文 转发 到 Downstream 节点 。 

假设 在 一 段 时 间 之 内 ，Curent 节点 共 收 到 了 Tx_Cnt 个 报 文 ,而 转发 了 Fwd_Cnt 个 报 文 ， 
那么 此 时 在 Current 节点 中 还 能 容纳 Buf_Aloc - (Tx_Cnt - Cx_Cnt) 个 报 文 空间 。Current 节点 
将 这 个 值 作为 Credit， 发 送 到 Upstream 节点 。 而 Upstream 节点 将 根据 这 个 Credit 的 值 更 新 
Crd_Bal 参数 。 

3.， Current 节点 将 报 文 转发 到 Downstream 节点 

Current 节点 接收 到 报 文 之 后 再 将 其 转发 出 去 涉及 一 些 路 由 算法 。 和 常用 的 算法 有 Cut- 
Through 路 由 和 Wormhole 路 由 算法 。 

当 使 用 Wormhole 路 由 方式 时 ， 一 个 报 文 将 被 分 解 为 看 干 个 Fit， 包括 Header Flit、Data 
Flit 和 Tail Flit。 当 数据 报 文 到 达 Current 节点 后 ，Current 节点 立即 对 Header Flit 进行 分 析 ， 首 
先 根据 路 由 算法 决定 发 向 哪个 Downstream 节点 92。 如 果 在 对 应 的 Downstream 节点 中 ， 链 路 空闲 
上 且 有 足够 的 缓冲 资源 时 ，Current 节点 将 发 送 Data Flit 直到 Tail Flit， 即 发 送 整 个 数据 报 文 ， 如 
果 对 应 的 Downstram 市 点 没有 资源 接收 这 个 报 文 ， 数 据 报 文 将 在 Current 节点 中 存储 。 

Cut-Through 路 由 与 Wormhole 路 由 类 似 。 采 用 Cut-Through 路 由 时 ，Downstream 节点 必 
须 具 有 接收 整个 报 文 的 能 力 时 ， 才 能 接收 报 文 ; 而 采用 Wormhole 路 由 时 ，Downstream 节点 
具有 接收 部 分 报 文 的 能 力 时 ， 就 可 以 接收 报 文 。 采 用 Wormhole 路 由 的 优点 是 数据 报 文 传送 
延 时 较 短 ， 每 一 个 节点 所 需要 的 数据 缓存 相对 较 小 。 当 网 络 发 生 拥 塞 时 ， 采 用 Wormhole 路 
由 技术 可 能 会 使 一 个 报 文 分 别 缓冲 在 Curent 节点 和 Downstream 节点 中 ， 而 使 用 Cut-Though 
路 由 技术 数据 报 文 最 终 缓冲 在 一 个 节点 中 。 

巨型 机 一 般 使 用 Wormhole 技术 进行 报 文 传递 ， 而 网 络 系统 中 多 使 用 Cut-Though 路 由 技 
术 。 有 关 Wormhole 和 Cut-Though 技术 的 优 劣 分 析 超 出 了 本 书 的 范围 ， 本 书 不 会 对 此 进行 详 
细 分 析 。 巨 型 机 应 用 针对 的 是 可 预知 的 网 络 拓扑 结构 ， 而 网 络 系统 的 拓扑 结构 是 变化 的 。 在 
一 个 网 络 拓扑 结构 可 预知 的 前 提 下 ， 采 用 Wormhole 技术 可 以 在 避免 拥塞 的 前 担 下， 降低 网 
络 报 文 的 传递 延 时 ; 而 对 于 一 个 未 知 的 网 络 拓 扑 结 构 ， 使 用 Cut-Though 技术 更 为 合理 。 


9.2 Credit-Based 机 制 使 用 的 算法 


在 第 9. 1. 2 节 中 提 到 的 Credit-Based 机 制 是 一 个 较为 理想 的 模型 ， 在 这 个 模型 中 ， 没 有 
考虑 网 络 的 延 时 和 拥塞 ， 也 没有 考虑 Current 节点 何 时 采用 哪 种 策略 将 Credit 传送 给 Up- 
stream 节点 ， 同 时 也 没有 考虑 Buf_alloc 缓冲 是 否 会 出 现 上 洪 出 〈Orverrun) 或 者 负载 (Un- 
derrun ) 。 本 节 将 首先 给 出 Overrun 和 Underrun 的 定义 ， 然 后 讨论 Credit-Based 机 制 使 用 的 各 
类 算法 以 及 这 些 算法 中 使 用 的 各 类 参数 。 

e 在 本 章 中 ，Overrun 指 Current 节点 没有 足够 的 缓存 接收 来 自 Upstream 节点 的 数据 报 


虽 在 网 络 系统 中 ，Curent 节点 可 能 对 应 多 个 Downstream 市 点 。 
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文 ; 或 者 Downstream 节点 没有 足够 的 缓存 接收 来 日 Current 节点 的 数据 报 文 。 
e 而 Underrun 指 Downstream 节点 有 足够 的 缓存 可 以 接收 Current 节点 的 报 文 ， 但 是 Cur- 
rent 节点 的 缓存 中 没有 需要 发 送 的 报 文 ; 或 者 Current 节点 有 足够 的 缓存 可 以 接收 Up- 
stream 节点 的 报 文 ， 但 是 在 Upstream 节点 的 缓存 中 没有 需要 发 送 的 报 文 。 
这 两 种 溢出 情况 都 将 导致 链 路 带宽 的 浪费 ， 在 实际 设计 中 需要 尽力 避免 这 两 种 洲 出 。 此 
外 在 一 个 设计 中 ， 还 需要 考虑 链 路 的 传送 延 时 。 由 于 传送 延 时 的 存在 ，Curent 节点 向 Up- 
stream 节点 传送 Credit 信息 时 ， 这 个 Credit 信息 并 不 能 瞬间 到 达 ， 而 会 造成 这 两 个 节点 
间 ，Credit 的 同步 问题 。 如 果 一 个 设计 将 上 述 这 些 因素 考虑 进去 ，Credit-Based 机 制 的 实现 
更 为 复杂 。 为 深入 研究 Credit-Baed 机 制 所 使 用 的 算法 ， 我 们 首先 定义 以 下 系统 参数 。 
(1) Rn (Round Trip Time) 
该 参数 记载 数据 通路 的 链 路 延 时 ， 单 位 为 s ( 秒 ) 。 使 用 Credit-Based 机 制 进行 报 文 传递 
时 ，Upstream 需要 获得 Credit 然后 才能 发 送 报 文 。 在 链 路 中 存在 两 个 延 时 ， 一 个 是 Current 
节点 向 Upstream 节点 发 送 Credit 报 文 的 线路 延 时 Tu ， 另 一 个 是 Upstream 市 点 向 Current 市 
点 发 送 数据 报 文 的 延 时 Tuc。 

如 果 一 个 物理 链 路 的 发 送 与 接收 链 路 速度 相等 ， 而 且 Credit 报 文 长 度 等 于 数据 报 文 长 度 
时 ，Tu 将 等 于 Tuc。 但 是 在 很 多 情况 下 这 两 个 值 并 不 相等 。 本 章 为 简化 起 见 ， 假 设 Teu 与 
Tuc 的 值 相等 。 

而 Ri 是 这 两 种 延 时 之 和 ，Rm 的 值 和 物理 链 路 的 延 时 成 正比 。 除 此 之 外 节点 在 发 送 数 
据 报 文 时 需要 通过 者 干 逻辑 门 ， 这 也 增加 了 传送 延 时 。Rm 的 值 可 以 在 链 路 配置 时 计算 出 来 ， 
但 是 在 具体 实现 中 ,设计 者 可 能 使 用 一 个 事先 预 估 的 数值 作为 Ri。 值 得 注意 的 是 ， 该 参数 
不 能 估计 得 过 低 ， 否 则 将 会 造成 Current 节点 的 Overrun; 也 不 能 估计 得 过 高 ， 否 则 将 可 能 引 
发 Current 节点 的 Underrun。 

(2) BLINK 

该 参数 存放 Upstream 、Current 和 Downstream 节点 间 数 据 传递 的 峰值 带宽 ， 即 数据 链 路 
所 能 提供 的 最 大 物理 带宽 ， 单 位 为 bps (Bits Per Second) 。 为 简便 起 见 ， 本 章 认 为 这 几 个 节 
点 间 进 行 数据 传递 时 的 峰值 带宽 相等 。 

(3) Packet_Size 

该 参数 存放 一 个 数据 报 文 的 大 小 ， 单 位 为 Bit。 假 定 所 有 节点 间 进 行 数据 通信 时 使 用 的 
数据 报 文 的 大 小 相等 。 值 得 注意 的 是 ， 在 PCIe 总 线 中 ， 数 据 报 文 并 不 等 长 ， 这 为 PCIe 总 线 
的 流量 控制 带 来 了 不 小 的 麻烦 。 

(4) F (In-flight Data) 

该 参数 存放 在 Ri 时 间 段 内 ，Upstream 节点 和 Current 节点 之 间 的 双向 链 路 上 存在 的 报 
文 ， 其 单位 为 报 文 数 。 其 最 大 值 等 于 Ri x Bimx/Packet_Size。 该 值 在 链 路 进行 远 距 离 传送 时 
必须 要 考虑 。 而 PCIe 链 路 通常 在 一 个 PCB 内 部 ， 至 多 作为 机 箱 到 机 箱 之 间 的 链 路 ， 因 此 
RTT 的 值 非常 小 ,FF 参数 几乎 可 以 忽略 不 计 。 

(5) Bye 

该 参数 存放 源 节点 到 目标 节点 的 有 效 数据 带宽 ， 单 位 为 bps。 在 一 个 物理 链 路 上 除了 要 

传递 有 效 数据 之 外 ， 还 需要 传递 Credit 报 文 ， 因 此 Bve < Bik。 

该 参数 不 一 定 是 一 个 常数 ， 因 为 在 一 个 实际 的 系统 中 ,不 同时 间 内 的 带宽 并 不 一 定 相 
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等 。 为 了 简化 模型 ， 使 用 Bvcn 参 数 蔡 代 Bve 参 数 ，Bven 人 参数 为 一 个 常数 。 
本 节 力 求 简化 流量 控制 的 数学 模型 ， 并 依 此 进行 量化 分 析 。 有 关 流 量 控制 的 量化 分 析 涉 
及 一 些 相对 复杂 的 数学 推导 ， 本 章 对 此 不 做 详细 说 明 。 
使 用 Credit-Based 机 制 时 ，Buf_Alloc 参数 可 以 被 分 解 为 三 部 分 ， 分别 由 N1、N2 和 N3 
组 成 ，Buf_alloc 参数 与 N1 ~3 间 的 关系 如 图 9-6 所 示 。 
Current 节 点 收 到 N2 个 
报 文 后 传送 一 次 Credit 


防 上 未 到 达 数 据 引发 的 | 防止 因为 传送 数据 和 
Overflow | Credit 引 发 的 Underflow 
| 


Buf_ Alloc 
图 9-6 Buf_Alloc 的 组 成 


(1) N1 缓冲 

该 参数 用 来 防止 因为 线路 延 时 而 造成 的 Overrun，Credit-Based 流量 控制 机 制 所 采用 的 算 
法 对 该 参数 的 解释 有 略微 区 别 ， 详 见 下 文 。 

(2) N2 缓冲 

N2 的 值 与 VC 的 设置 有 相关 。 当 Current 节点 向 Downstream 节点 每 转发 N2 个 报 文 后 
将 向 Upstream 节点 发 送 一 个 Credit 报 文 。Current 节点 可 以 将 所 有 VC 的 N2 值 设 为 相同 ， 也 
可 以 分 别 设置 。 

N2 的 值 越 大 ，Buf_Alloc 参数 的 值 也 越 大 ， 节 点 发 送 Credit 报 文 的 频率 也 越 低 ， 从 而 
Credit 报 文 占用 数据 通路 带宽 的 比例 越 小 ; N2 的 值 越 小 , 则 Buf_Alloc 的 值 也 越 小 ， 向 Up- 
stream 节点 发 送 的 Credit 报 文 的 频率 越 高 ，Credit 报 文 占用 数据 通路 带宽 的 比例 也 越 大 。 如 
果 N2 的 值 为 10，Curent 节点 每 转发 10 个 报 文 后 ， 才 向 Downstream 发 送 一 个 Credit 报 文 ， 
从 而 整个 系统 用 于 传送 Credit 报 文 所 占用 的 带宽 不 会 超过 10% 。 

(3) N3 缓冲 

该 参数 保证 Current 节点 不 会 出 现 Underrun， 即 出 现 Downstream 节点 仍 有 缓存 接收 报 
文 ， 而 在 Current 节点 的 缓存 中 没有 报 文 需要 发 送 这 种 情况 。 

为 此 在 进行 系统 设计 时 ， 需 要 合理 设置 N3 的 值 。 使 得 在 理想 情况 下 ， 只 要 Upstream 市 
点 向 Current 节点 不 断 地 发 送 报 文 ， 且 Downstream 节点 有 足够 的 缓存 时 ， 就 不 会 在 Current 节 
点 中 出 现 Underrun 的 现象 。 

当然 Downstream 节点 接收 数据 报 文 的 速度 足够 快 ， 而 且 Current 节点 未 能 及 时 地 从 Up- 
stream 节点 获得 报 文 时 ，Current 节点 总 会 出 现 Underrun 的 现象 。 

假设 Downstream 节点 从 Current 节点 获取 报 文 的 速度 为 Ba， 只 要 N3 = Byen x Rn/ 
Packet_Size， 那 么 在 Downstream 节点 将 N3 中 的 报 文 取 完 之 前 ，Current 节点 总 能 获得 新 的 报 
文 (其 前 提 是 Upstream 节点 在 不 断 地 向 Current 节点 发 送 数据 报 文 ) 。 

由 此 可 见 Bves 与 N3 的 容量 有 关 ，Bvea 越 大 ，N3 也 越 大 。N3 的 容量 可 以 影响 数据 通路 
的 有 效 带 宽 ， 在 流量 控制 机 制 的 实现 中 ， 如 果 N3 过 小 ,那么 Current 节点 将 出 现 Under- 
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run 的 现象 ， 从 而 影响 数据 通路 的 有 效 带 宽 。 根 据 上 述 数学 模型 ，H. T Kuang 与 Alan 
Chapman 提出 了 三 种 流量 控制 算法 ， 分 别 为 N123 、N123 + 和 N23 算法 。 


9.2.1 N123 算法 和 N123 + 算法 


N123 算法 的 使 用 规则 如 下 所 示 。 

(1) Current 节点 发 送 上 一 个 Credit 报 文 之 后 ， 至 少 需要 向 Downstream 节点 转发 N2 个 报 
文 后 ， 才 能 发 送 下 一 个 Credit 报 文 。 

(2) Credit 报 文 中 存放 的 Credit 为 Current 节点 已 经 发 送 的 报 文 数 ， 其 最 大 值 为 N2 + N3 ， 
其 中 N1 不 参与 “Credit” 的 计算 ， 因 为 在 N123 算法 中 ，N1 用 来 防止 Current 节点 的 溢出 。 
当 Current 节点 使 用 的 缓冲 超过 N2 + N3 时 ，Curent 节点 不 再 向 Upstream 市 点 发 送 Credit 报 
文 ， 即 便 Current 节点 已 经 向 Downstream 转发 了 N2 个 报 文 。 

(3) Upstream 节点 收 到 Credit 报 文 后 ， 使 用 Crd_Bal 参数 保存 这 个 报 文中 的 Credit， 当 
Crd_Bal 参数 不 为 0 时 ，Upstream 节点 可 以 发 送 数 据 报 文 。Upstream 节点 每 发 送 一 个 报 文 ， 
Crd_Bal 参数 将 减 1 ， 当 这 个 参数 为 0 时 ，Upstream 节点 停止 发 送 报 文 。Crd_Bal 参数 的 初始 
值 为 N2 + N3。 

采用 以 上 算法 时 ， 必 须 保证 NI1 丢 Ri x BiwwxAPacket_Size， 此 时 Current 节点 的 接收 缓冲 
才 不 会 溢出 。 下 文 将 详细 解释 为 什么 N1 的 最 小 值 为 Ri x Binx/Packet_Size， 并 用 一 个 实例 
说 明 N1 最 小 值 的 设置 原因 ， 而 不 进行 理论 分 析 。 

假设 在 某 一 个 时 间 点 ，Upstream 节点 的 Crd_Bal 参数 为 0， 而 Current 节点 的 N2 和 N3 组 
冲 区 被 完全 占 满 ， 此 时 Upstream 节点 不 能 发 送 新 的 报 文 ， 直 到 获得 新 的 Credit 报 文 。 之 后 
Upstream 、Current 节点 和 Downstream 节点 按照 以 下 步骤 运行 。 

(1) 当 Current 节点 向 Downstream 节点 转发 x(x 宇 N2) 个 报 文 后 ,将 通过 Credit 报 文 将 x 
传递 给 Upstream 市 点 。 

(2) 当 Upstream 节点 收 到 这 个 Credit 后 ， 将 更 新 Crd_Bal 参数 为 x， 之 后 可 以 向 Current 
节点 发 送 x 个 报 文 。 这 些 报 文 将 通过 链 路 不 断 发 向 Current 节点 。 

(3) 假设 此 时 Current 节点 接收 到 的 报 文 个 数 为 z1 (zl 三 x) ，Current 节点 在 接收 这 些 报 
文 的 同时 ， 向 Downstream 节点 又 转发 了 y 个 报 文 ， 此 时 Current 节点 一 共 需 要 向 Upstream 节 
点 发 送 的 Credit 为 (x +y 一 zl)。 假 定 此 时 Downstream 节点 由 于 缓存 不 足 ， 禁 止 接收 来 自 
Current 节点 的 报 文 ，Current 节点 的 空闲 缓存 将 定格 为 x+y-zl。 

(4) 在 Current 节点 向 Upstream 节点 发 送 Credit( 该 值 为 x+y 一 zl ) 的 过 程 中 ,该 节点 又 
陆续 收 到 了 一 些 报 文 ， 其 个 数 为 2。 值 得 注意 的 是 “Current 节点 发 送 Credit 报 文 ”到 “Up- 
stream 节点 收 到 这 个 报 文 ” 有 一 段 延 时 ， 该 延 时 等 于 Teu。 

(5) Upstream 节点 收 到 新 的 Credit 后 ,将 x+y 一 zl 个 报 文 发 向 Current 节点 ， 除 此 之 外 
在 从 Upstream 节点 到 Current 节点 间 的 链 路 上 还 留 有 一 部 分 报 文 》 其 个 数 为 Z3 。 这 上段 残 留 的 
报 文 数 为 在 Tuc 时 间 段 内 传递 的 数据 报 文 。 

(6) 因此 Current 节点 最 终 收 到 的 报 文 个 数 为 (x 本 泽 : 一 z] ) +22 +23 个 。 

(7) 其 中 x+y 一 zl 个 报 文 可 以 被 Current 节点 中 空闲 缓存 吸收 ， 而 多 出 来 的 2 + 妈 个 数 
据 报 文 将 放置 到 N1 中 。 

Max(22 +2) 的 计算 方法 如 公式 9-1 所 示 。 
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Max(22 +z23) =(7TxBNk+TucxBink)/Pacpet Size 
= Ri XPiNkACPacpet_ Size (9-1) 

因此 只 要 N1 被 设置 为 Ri x Biw/Packet_Size， 采 用 N123 算法 就 一 定 不 会 在 Current 市 
点 上 产生 Overrun。 
通过 以 上 分 析 ， 可 以 发 现 由 于 物理 链 路 传送 的 延 时 ， 采 用 N123 算法 时 ，Current 节点 将 
多 收 到 2 +23 个 报 文 ， 其 中 2 是 Current 节点 更 新 Upstream 节点 Credit 的 过 程 中 产生 ; 而 
23 是 Upstream 节点 更 新 完毕 Credit 后 ， 在 网 络 线路 上 残留 的 报 文 。 使 用 N123 算法 时 ， 需 要 
设置 N1 绥 冲 处 理 这 些 因 为 网 络 延 时 产生 的 报 文 。 

以 上 过 程 并 非 严格 的 数学 证 明 ， 只 是 使 用 较为 简单 的 推理 说 明 ， 在 某 些 情 况 下 ， 在 Cur- 
rent 节点 中 的 N1 至 少 为 Ri x BjwwAPacket_Size 时 ， 才 能 够 保证 Current 节点 的 接收 缓冲 不 会 
溢出 。 和 希望 读者 认真 理解 N1 缓冲 在 N123 算法 中 的 意义 。 

N123 + 算法 基于 N123 算法 ,但 是 发 送 Credit 报 文 的 方式 略 有 不 同 。N123 算法 要 求 Cur- 
rent 节点 每 转发 N2 个 报 文 后 ， 才 能 给 Upstream 节点 发 送 一 个 Credit 报 文 ;而 N123 + 算法 除 
了 要 求 同 样 的 规则 之 外 ， 还 要 求 Current 节点 在 一 个 时 间 段 RTT 中 至 少 发 送 一 个 Credit 报 文 ， 
即 发 送 上 一 个 Credit 报 文 之 后 ， 即 便 Current 节点 没有 向 Downstream 转发 了 N2 报 文 ， 在 一 
个 时 间 段 RTT 中 也 至 少 要 向 Upstream 节点 发 送 一 次 Credit 报 文 。 

采用 这 种 方法 ， 因 为 在 每 一 个 Ri 时 间 段 里 都 会 向 Upstream 节点 发 送 Credit 信息 ， 因 此 
F 将 小 于 这 个 Credit， 而 这 个 Credit 又 小 于 N2 + N3。 为 此 使 用 这 种 方法 时 ，N1 的 计算 方法 
如 公式 9-2 所 示 。 


N1 = Min( N2 + N3 ,Rr x Bw/ Packet_Size) (9-2) 

使 用 这 种 方法 ， 在 (N2 +N3) < Ri xB,NewPacket_Size 时 ，Current 节点 将 可 以 使 用 较 小 

的 N1 缓冲 ， 从 而 节约 了 接收 缓冲 。 这 种 算法 对 于 网 络 延 时 较 长 的 通信 网 络 有 所 帮助 ， 而 网 

络 延 时 较 短 时 ， 但 是 采用 这 种 方法 ， 发 送 Credit 报 文 所 占用 的 带宽 较 大 。 在 PCIe 总 线 中 ， 
端 到 端的 延 时 相对 较 小 ， 因 此 没有 必要 使 用 这 种 流量 控制 机 制 。 


9.2.2 N23 算法 


N23 算法 是 流量 控制 中 常用 的 算法 ,使 用 该 算法 的 优点 是 Current 节点 的 缓存 中 不 包含 
N1 ， 从 而 降低 了 节点 的 缓存 容量 。 该 算法 基于 N123 算法 ， 区 别 在 于 使 用 该 算法 时 Crd_ Bal 
参数 的 计算 。 基 于 该 算法 的 实现 方式 如 图 9-7 所 示 。 
N23 算法 的 使 用 规则 如 下 。 
e 当 系 统 初 始 化 时 ，Crd_Bal 参数 为 N2 + N3 -下 ，E 为 在 时 间 段 R 中 ，Upstream 节点 向 
Current 节点 发 送 的 报 文 数 ， 其 值 等 于 B, x Ru/Packet_Size。 而 Upstream 节点 每 发 送 
一 个 报 文 ，Crd_Bal 参数 的 值 将 减 1。 当 Crd_Bal 参数 等 于 0 时 ，Upstream 节点 停止 发 
送 报 文 ， 直 到 重新 获得 Current 节点 的 Credit 报 文 ， 更 新 Crd_Bal 参数 后 ， 才 能 继续 


e 使 用 N23 算法 时 ，Crd_Bal 参数 与 Current 节点 发 出 的 Credit 并 不 相等 ， 而 是 等 于 
Credit -上 。 


e Current 节点 至 少 需要 向 Downstream 市 点 发 送 N2 个 报 文 后 ， 才 能 向 Upstream 节点 发 
送 Credit 报 文 ， 与 N123 算法 一 致 。 
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图 9-7 基于 N23 算法 的 流量 控制 


通过 以 上 介绍 ， 可 以 发 现 之 所 以 采用 N23 算法 ， 不 需要 设置 N1 ， 是 因为 Upstream 节点 
使 用 的 Crd_Bal 参数 与 N123 算法 相 比 少 王 个 包 ， 所 以 N23 算法 虽然 没有 使 用 N1 缓冲 ， 也 
不 会 导致 在 传送 过 程 中 出 现 Overrun， 因 为 采用 N23 算法 ,将 Nl 隐 含 在 正中。 同时 因为 N3 
的 存在 ， 采 用 N23 算法 也 不 会 导致 在 传送 过 程 中 出 现 Underrun。 

综 上 所 述 ， 使 用 N23 算法 进行 数据 报 文 的 传递 时 ， 只 要 N2 和 N3 参数 设置 合理 ， 将 不 
会 发 生 节 点 的 Overrun 和 Underrun 的 情况 。 但 是 还 需要 继续 讨论 Current 节点 发 送 Credit 报 
文 时 会 不 会 引发 Overrun 和 Underrun 。 

首先 Current 节点 发 送 Credit 报 文 不 会 引发 Upstream 节点 的 Overrun ， 因 为 Upstream 节点 
每 次 接收 到 新 的 Credit 报 文 都 会 把 Crd_Bal 参数 更 新 ， 不 可 能 因为 Credit 报 文 过 多 而 无 法 处 
理 。 但 是 Current 节点 发 送 过 多 的 Credit 报 文 将 严重 影响 物理 链 路 的 有 效 利用 率 ， 在 流量 机 
制 的 实现 中 ， 需 要 合理 设置 发 送 Credit 报 文 的 频率 。 

而 Current 节点 向 Upstream 节点 传递 Credit 报 文 延 时 过 大 时 ， 可 能 会 引发 Current 节点 的 
Underrun。 在 这 种 情况 下 ，Upstream 节点 虽然 有 很 多 报 文 等 竺 发送， 但 是 由 于 Crd_Bal 参数 
为 0， 不 能 发 送 这 些 报 文 。 

因此 造成 在 Current 节点 的 数据 缓冲 中 ， 没 有 数据 报 文 需要 发 向 Downstream 节点 ， 尽 管 
此 时 在 Current 节点 中 还 有 足够 的 缓存 可 以 接收 数据 报 文 。 在 流量 控制 机 制 的 设计 中 ， 需 要 
考虑 Credit 报 文 的 传送 延 时 ， 合 理 设 置 Current 节点 中 的 缓冲 ， 以 保证 Upstream 节点 在 获得 
新 的 Credit 之 前 ，Current 节点 的 缓冲 中 具有 一 定 的 报 文 数 ， 以 避免 Underrun。 

采用 N23 算法 可 以 有 效 避 免 这 种 因为 Credit 报 文 传递 不 及 时 而 引发 的 Underrun (N123 
算法 与 N23 算法 都 使 用 了 N3 缓冲 避免 Current 节点 的 Underrun ) 。 我 们 首先 基于 N23 算法 做 
出 以 下 假设 以 简化 数学 模型 。 

(1) N3 = Bycn Xx Rww/Packet_Size。 设 置 N3 缓存 的 主要 目的 是 保证 Current 节点 不 会 出 现 
Underrun。 而 Bycr x Rw/Packet_Size 是 N3 绥 存 的 最 小 值 。 

(2) Upstream 、Current 和 Downstream 间 VC 的 通信 带宽 为 B,,， 其 值 为 一 个 常数 。 

(3) Downstream 节点 始终 有 足够 的 缓冲 接收 报 文 。Current 节点 可 以 通畅 地 将 数据 报 文 
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转发 到 Downstream 节点 。 

Upstream 和 Current 节点 间 的 数据 交换 是 基于 “得 到 Credit， 然 后 发 送 数据 ”这 样 的 循 
环 。 假 定 在 一 个 发 送 循环 的 起 始点 中 ，Upstream 节点 的 Crd_Bal 参数 为 N2, 即 Upstream 节点 
刚 收 到 的 Credit 为 N2 +N3 ， 而 采用 N23 算法 时 , Crd_Bal = Credit -了 =(N2 +N3) -上 =N2。 

我 们 定格 Upstream 节点 刚刚 收 到 Current 节点 Credit 报 文 ， 更 新 Crd_Bal 参数 完毕 这 个 
场景 ， 其 时 间 惟 为 T2 ， 而 Current 市 点 发 送 这 个 Credit 报 文 的 时 间 惟 为 T1。 假 设 从 Tl ~ T2 
这 段 时 间 内 ，Current 节点 收 到 2 个 报 文 (Current 节点 向 Upstream 节点 发 送 Credit 报 文 的 过 
程 中 ， 仍 然 在 持续 地 接收 报 文 ) 。Tl ~ T3 的 示意 如 图 9-8 所 示 。 


Current 节 点 发 送 Upstream 节 点 发 送 Upstream 节 点 发 送 
Credit 报 文 Credit 报 文 N2-z2 报 文 
二 
Tl eA 工 3 


图 9-8 Tl ~T3 的 示意 图 


由 于 各 节点 的 带宽 都 为 BVCR， 所 以 Current 节点 每 收 到 一 个 报 文 ， 都 会 发 送 到 Down- 
stream 节点 ， 因 此 此 时 Current 节点 的 可 用 缓存 始终 保持 为 N2 + N3 。Current 节点 向 Upstream 
节点 发 送 的 Credit 报 文 始终 为 N2 + N3， 而 Upstream 节点 收 到 这 个 Credit 后 ， 其 Crd_Bal 参 
数 将 被 置 为 N2。 

Upstream 节点 收 到 Credit 报 文 后 ， 开 始 向 Current 节点 发 送 N2 个 报 文 ，Upstream 节点 每 
发 送 一 个 报 文 ，Current 市 点 将 收 到 一 个 报 文 (假设 此 时 从 Upstream 节点 到 Current 节点 的 链 
路 之 间 已 经 堆积 了 2 个 报 文 ， 此 时 物理 链 路 已 经 充满 数据 报 文 ) 。 

假设 Upstream 节点 向 Current 节点 发 送 完毕 N2 -到 个 报 文 (数据 报 文 离开 发 送 端口 的 
时 间 惟 为 T3 ) 。 那 么 从 T3 ~ TI 这 段 时 间 里 ，Current 节点 将 收 到 N2 个 报 文 ， 同 时 Current 节 
点 也 将 向 Downstream 节点 转发 完毕 N2 个 报 文 ， 此 时 (T3 时 间 戳 ) Current 节点 将 向 Up- 
stream 节点 发 送 Credit 报 文 (数值 为 N2 +N3 ) 。 

而 Upstream 节点 处 于 T3 这 个 时 刻 时 ， 还 能 向 Current 节点 发 送 2 个 报 文 ， 因 为 之 前 已 
经 发 送 了 N2 -2 个 报 文 ， 此 时 Crd_Bal 参数 为 2。 等 到 Upstream 节点 将 双 个 报 文 发 送 完 
毕 ， 来 自 Current 节点 的 Credit 报 文 恰好 到 达 ， 因 为 Upstream 节点 将 巡 个 报 文 发 送 完毕 的 时 
间 刚 好 等 于 Current 节点 向 Upstream 节点 发 送 Credit 报 文 的 时 间 。 通 过 以 上 计算 ， 可 以 发 现 
采用 N23 算法 不 会 因为 Credit 报 文 的 传送 时 间 而 导致 Current 节点 的 Underrun。 

此 外 采用 N23 算法 时 还 需要 处 理 错误 报 文 ，N23 算法 规定 当 一 个 节点 收 到 一 个 错误 数 
据 报 文 时 ， 将 丢弃 这 个 报 文 ， 此 时 这 个 被 丢弃 的 报 文 将 不 占用 接收 节点 的 缓存 ， 但 是 发 送 节 
点 的 Crd_Bal 参数 仍然 需要 考虑 这 个 报 文 。 


9.2.3 流量 控制 机 制 的 缓冲 管理 


上 文 讲 述 了 基于 单个 VC 的 流 探 机制， 实际 上 在 Upstream 、Current 和 Downstream 节点 
中 一 般 含 有 多 个 VC。 多 个 VC 之 间 如 何 合理 地 使 用 缓存 值得 重点 关注 ， 在 实际 设计 中 ， 可 
以 为 每 一 个 VC 设置 独立 接收 缓存 ， 也 可 以 使 多 个 VC 共享 同一 个 接收 缓存 。 在 FCVC 的 实 
现 中 ， 可 以 根据 实际 情况 选择 独立 缓存 或 者 共享 缓存 。 
其 中 ， 每 一 个 VC 都 使 用 独立 接收 缓存 的 流量 控制 方法 称 为 静态 (Static) 流量 控制 ; 
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而 使 用 共享 缓存 的 流量 控制 方法 称 为 自 适 应 (Adaptive) 流量 控制 。 

假定 在 一 个 系统 中 ,一 共 具 有 n 条 VC， 而 且 这 几 条 VC 都 使 用 N23 算法 进行 流量 控制 ， 
那么 在 使 用 Static 流量 控制 方式 时 ， 该 系统 一 共 需 要 的 缓冲 大 小 为 (n x N2 + N3) x Packet_ 
Size? 。 如 果 (n x N2 + N3) xPacket_Size 并 不 是 很 大 时 ， 为 了 使 数据 链 路 获得 更 大 的 带宽 ， 
可 以 使 用 Static 流量 控制 。 使 用 这 种 方法 ， 也 将 极 大 地 简化 缓冲 管理 的 设计 难度 。 

值得 注意 的 是 ， 在 一 个 系统 工程 的 架构 设计 中 ， 应 当 重 点 关注 “Critical Path” 的 设计 ， 
需要 容忍 非 “Critical Path” 的 不 完美 。 当 (n x N2 + N3 ) x Packet_Size 的 值 大 到 了 可 以 容忍 
的 范围 之 外 时 ,设计 者 必须 考虑 如 何 减少 Current 节点 的 接收 缓存 大 小 。Static 流量 控制 是 针 
对 每 一 个 VC 都 是 按照 全 负荷 运转 的 情况 ， 在 绝 大 多 数 应 用 中 ， 几 乎 不 可 能 出 现 每 一 条 VC 
都 被 充分 利用 的 情况 ， 因 为 多 条 VC 共享 一 个 物理 链 路 ， 不 可 能 出 现 所 有 VC 都 在 全 负荷 运 
行 的 情况 。 为 此 在 系统 设计 时 可 以 使 用 Adaptive 流量 控制 方法 。 

Adaptive 流量 控制 的 本 质 是 Current 节点 中 ， 所 有 VC 共享 一 个 接收 缓存 ， 从 而 这 个 缓存 
可 以 远 小 于 (nxN2 +N3) x Packet_Size。 因 为 在 绝 大 多 数 时 间 内 ， 数 据 链 路 的 多 条 VC 不 可 
能 都 被 充分 使 用 ， 因 此 并 不 需要 为 每 条 VC 都 提供 N2 缓冲 ， 而 是 为 所 有 VC 统一 提供 接收 
缓冲 ， 从 而 合理 使 用 这 些 接收 缓冲 。 

目前 接收 缓存 的 分 配 常 使 用 两 种 算法 ， 分 别 是 Sender-Oriented 和 Receiver-Oriented 管理 
算法 。 这 两 种 算法 的 缓冲 设置 如 图 9-9 所 示 。 使 用 Sender-Oriented 管理 算法 时 ，Adaptive 
Buffer 的 分 配 在 Upstream 节点 中 完成 ， 如 果 系 统 中 有 多 个 Upstream 市 点 ，Current 节点 需要 
在 其 接收 端点 处 为 每 个 Upstream 节点 准备 Adaptive Buffer， 而 且 Current 节点 并 不 知道 Up- 
stream 节点 的 使 用 情况 ， 这 为 Current 节点 的 缓冲 管理 带 来 了 不 小 的 困难 。 


Upstream 节 点 分配 Adaptive Buffer Current 节点 


VCI1 


VC2 Adaptife Buffer 


Upstream 节 点 n Current 节 点 分配 Adaptive Buffer 


Upstream 节 点 


VC1 


VC2 Adaptive Buffer 


图 9-9 Sender-Oriented 和 Receiver-Oriented 管理 算法 


而 使 用 Receiver-Oriented 管理 算法 可 以 有 效 避 免 这 类 困难 ， 使 用 这 种 算法 时 ， 所 有 来 自 
Upstream 节点 的 数据 报 文 在 Current 节点 的 发 送 端 准 备 一 个 Adaptive Buffer， 对 这 个 Buffer 的 分 


名 多 条 VC 可 以 复 用 N3 缓冲 ， 因 为 多 条 VC 对 应 一 条 物理 链 路 。 但 是 必须 提供 独立 的 N2 缓冲 。 
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配 也 在 Current 节点 内 部 完成 。 这 两 种 算法 的 具体 实现 都 较为 复杂 ， 本 节 并 不 详细 介绍 这 些 算 
法 ,在 PCle 总 线 中 ，RC 和 Switch 的 硬件 设计 将 会 涉及 这 些 内 容 ， 而 EP 无 需 关心 这 些 问题 。 

图 中 的 上 半 部 分 是 Sender-Oriented 管理 算法 的 示意 图 ， 而 下 半 部 分 是 Receiver-Oriented 
管理 算法 的 示意 图 。 由 图 9-9 可 以 发 现 ， 使 用 这 两 种 算法 时 Adaptive Buffer 都 在 Current 节 
点 中 ， 只 是 位 置 不 同 。 


9.3 PCle 总 线 的 流量 控制 


我 们 仍然 使 用 上 文 的 Upstream 、Curent 和 Downstream 节点 模型 分 析 PCIe 总 线 使 用 的 流 
量 控制 机 制 。 在 PCIe 总 线 中 ，Upstream 节点 和 Downstream 节点 可 以 为 RC 或 者 EP， 而 Cur- 
rent 节点 只 能 为 Switch 或 RC?。 

此 外 在 PCIe 总 线 中 ， 人 允许 Upstream 节点 和 Downstream 节点 直接 相连 ， 而 不 需要 经 过 
Current 节点 ， 如 RC 的 某 个 端口 可 以 和 EP 直接 相连 。 当 然 这 种 情况 也 可 以 理解 为 Upstream 
和 Current 节点 直接 相连 ， 但 是 Current 节点 不 需要 与 Downstream 节点 相连 。 

与 传统 的 流量 控制 机 制 相 比 ，PCIe 总 线 的 流量 控制 机 制 有 所 不 同 。 流 量 控制 机 制 首 先 
出 现在 互联 网 中 ， 使 用 流量 控制 机 制 最 典型 的 应 用 是 基于 ATM (Asynchronous Transfer 
Mode) 的 分 组 交换 网 。 在 ATM 分 组 交换 网 系统 中 ， 数 据 传递 以 报 文 为 单位 进行 ， 每 一 个 报 
文 都 可 以 独立 地 通过 分 组 交换 网 ， 到 达 目 的 地 。 而 PCle 总 线 的 数据 传递 基于 节点 到 节点 间 
的 数据 传递 ， 一 个 完整 的 PCIe 总 线 传输 需要 使 用 多 个 报 文 ， 而 且 这 些 报 文 和 报 文 之 间 还 有 
一 定 的 联系 ， 如 一 个 完整 的 存储 器 读 由 存储 器 读 请 求 TLP 和 存储 器 读 完成 TLP 组 成 。 

在 PCIe 总 线 中 ，RC 端口 和 EP 之 间 可 以 直接 互 连 ， 而 不 需要 中 间 节 点 ， 这 和 基于 分 组 
交换 的 网 络 有 很 大 的 不 同 。 此 外 在 PCIe 总 线 中 ， 报 文 的 大 小 并 不 固定 ， 如 数据 报 文 的 大 小 
可 以 为 128B、256B ， 只 要 数据 报 文 的 有 效 负载 小 于 Max_Payload_Size 参数 即 可 。 

这 些 长 度 不 确定 的 数据 报 文 ， 为 PCIe 总 线 的 流量 控制 带 来 了 不 小 的 困难 ， 也 是 因为 这 
个 原因 ，PCIe 总 线 的 流量 控制 机 制 将 一 个 TLP 分 为 TLP 头 和 Payload 两 部 分 ， 并 分 别 为 这 两 
部 分 提供 不 同 的 接收 缓冲 ， 以 合理 利用 PCIe 链 路 的 带宽 。 

PCIe 总 线 的 这 些 特 性 实际 上 不 利于 流量 控制 的 实现 ， 为 此 PCle 总 线 在 传统 流量 控制 理 
论 的 基础 上 ， 做 出 了 许多 改动 。 在 PCIe 总 线 中 存在 多 条 VC， 其 流量 控制 也 是 基于 FCVC 
的 ， 但 是 PCIe 总 线 在 接收 缓冲 的 设计 上 与 传统 的 流量 控制 机 制 有 很 大 的 不 同 。 

PCIe 总 线 的 主要 应 用 领域 在 PC 或 者 服务 器 中 进行 板 内 互 连 ， 在 这 个 应 用 领域 中 ， 流 量 
控制 并 不 是 最 重要 的 。PCIe 总 线 的 流 控 机 制 远 非 完 美 ， 这 在 茶 种 程度 上 影响 了 PCIe 总 线 在 
大 规模 互 连 结构 中 的 使 用 。 但 是 PCIe 总 线 的 流量 控制 机 制 仍 有 其 闪光 之 处 ， 因 此 读者 仍 有 
必要 了 解 PCIe 总 线 的 流量 控制 机 制 。 

与 传统 流量 控制 机 制 相 比 ，PCIe 总 线 在 实现 流量 控制 机 制 时 需要 更 多 的 接收 缓存 ， 
此 PCIe 总 线 实 现 流 控 的 代价 相对 较 大 。 值 得 庆幸 的 是 ， 目 前 PCle 总 线 上 的 设备 ， 包 括 RC、 
EP 和 Switch ， 很 少 有 支持 两 个 以 上 VC 通路 的 。 一 般 来 说 PCIe 总 线 上 的 设备 ， 如 RC 和 


名 如 果 RoC 支持 Peer-to-Peer 传送 方式 。 
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Switch 上 也 只 有 两 个 VC， 多 数 EP 仅 文 持 一 个 VC。 

PCIe 总 线 的 流量 控制 机 制 由 事务 层 和 数据 链 路 层 协 调 实现 ， 而 对 系统 软件 透明 。PCIe 
总 线 使 用 Credit-Based 流量 控制 机 制 ， 其 中 Credit 报 文 以 DLLP 的 形式 从 Current 节点 反馈 到 
Upstream 节点 。 在 PCle 总 线 中 ， 数 据 报 文 首 先 以 TLP 的 形式 通过 数据 链 路 层 ， 而 到 达 数 据 
缓存 时 被 分 解 为 Header 和 Data 两 个 部 分 ， 分 别 存 放 到 不 同 的 接收 缓存 队列 中 。 


9.3.1 PCIe 总 线 流量 控制 的 缓存 管理 


在 PCIe 总 线 的 节点 中 ， 一 个 VC 的 接收 缓存 由 PH (Posted Header) 缓存 、PD (Posted 
Data) 缓存 、NPH (Non-Posted Header) 缓存 、NPD (Non-Posted Data) 缓存 、CplH (Com- 
pletion Header) 缓存 和 CplD (Completion Data) 绥 存 组 成 。 

。 PH 缓存 存放 存储 器 写 请 求 TLP 和 Message 报 文 使 用 的 TLP 头 。 

e PD 缓存 存放 存储 器 写 请 求 TLP 和 Message 报 文 使 用 的 Payload。 

。 NPH 缓存 存放 Non-Posted 请 求 TLP 使 用 的 TLP 头 。 

e NPD 缓存 存放 Non-Posted 请 求 TLP 使 用 的 Payload。 在 Non-Posted 请 求 TLP 中 ， 如 存 

储 央 读 请 求 TLP 并 不 含有 Payload 字段 ， 但 是 WO 和 配置 写 请 求 TLP 使 用 Payload 
字段 。 

。CplH 缓存 存放 完成 报 文 使 用 的 TLP 头 。 

e CplD 缓存 存放 完成 报 文 使 用 的 Payload。 如 上 文 所 述 ， 完 成 报 文 分 为 两 大 类 ， 珊 数据 

的 完成 报 文 和 不 带 数 据 的 完成 报 文 。 其 中 不 带 数 据 的 完成 报 文 不 需要 使 用 CplD 缓存 。 

在 PCIe 总 线 中 ， 一 个 TLP 从 Upstream 节点 传送 到 Current 节点 时 ， 必 须 同 时 具备 多 个 

缓存 的 Credit 后 才能 发 送 。 如 存储 器 写 请求 TLP， 需 要 同时 具备 PH 和 PD 缓存 的 Credit， 才 

能 发 送 ; 而 “不 带 数 据 的 ”存储 器 读 完 成 TLP， 仅 需要 具备 CplH 缓存 即 可 。 这 些 缓存 在 
PCIe 设备 中 的 组 成 结构 如 图 9-10 所 示 。 


Upstream Node Current Node Downstream Node 


1 
1 1 
_ Transaction 二 NPD 缓 存 局 


CPLH 缓 存 
一 Completion 一 
ee | CPLD 缓存 Mi 
1 | 1 
| | 


图 9-10 PCIe 总 线 Current 节点 的 缓冲 管理 


如 表 6-2 所 示 ，PCIe 总 线 根据 Type 字段 将 TLP 分 为 15 种 ， 而 根据 这 些 TLP 的 传输 特 
性 ， 可 以 将 这 些 TLP 分 为 Posted Transaction 、Non-Posted Transaction 和 Completion 三 大 类 。 
在 PCle 总 线 中 ， 这 三 大 类 数据 传送 需要 遵循 各 自 的 规则 ， 这 些 Transaction 也 有 各 自 的 特点 。 
这 三 大 类 Transaction 在 进行 数据 传递 时 需要 使 用 不 同 的 缓存 ， 这 些 缓存 由 多 个 单元 (Unit) 
组 成 。 每 个 Unit 的 大 小 与 缓存 类 型 相关 ， 如 表 9-1 所 示 。 
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表 9-1 PCle 总 线 缓存 的 单元 大 小 


类 型 Unit 大 小 
PH 缓存 5 个 DW，Posted Transaction TLP 头 的 最 大 值 为 4DW， 再 加 上 一 个 Digest 
PD 缓存 4 个 DW 
NPH 缓存 5 个 DW，Non-Posted Transaction 的 TLP 头 的 最 大 值 为 4DW， 再 加 上 一 个 Digest 
NPD 缓存 1 个 DW。NPD 缓存 用 于 IO 和 配置 读 写 的 数据 
CplH 缓存 4 个 DW。3DW 的 完成 报 文 的 头 ， 加 上 一 个 Digest 
CplD 缓存 4 个 DW。 该 缓存 至 少 能 够 存放 一 个 完整 前 带 数 据 的 完成 报 文 。 其 总 单元 数 的 最 小 值 为 min 
(RCB/4B, Max_Payload_Size/4B) 


PCIe 总 线 将 Header 和 Data 缓存 分 离 的 主要 原因 是 ,一 个 TLP 的 Header 大 小 是 固定 的 ， 
如 PH 和 NPH 大 小 在 5DW 之 内 ，CplH 大 小 在 4DW 之 内 ; 而 Data 的 大 小 并 不 固定 ， 除 了 
NPD 的 大 小 为 1 个 DW 之 外 ， 其 他 数据 报 文 的 长 度 由 TLP 的 Length 字段 确定 ， 并 不 固定 。 
PCIe 总 线 将 Header 和 Data 缓存 分 离 有 利于 Data 缓存 的 合理 使 用 。 

PCIle 总 线 规范 将 这 些 缓存 使 用 的 Unit 统称 为 FC (Flow Control) Unit， 下 文 将 以 FC Unit 
简称 这 些 对 应 缓存 的 Unit。 因 为 Header 的 大 小 固定 ， 所 以 Header 缓存 能 够 精确 地 预知 可 以 
容纳 几 个 Header; 而 由 于 Data 的 大 小 并 不 国定 ，Data 缓存 无 法 精确 预知 可 以 存放 几 个 Data ， 
当然 Data 缓存 也 不 可 能 将 Data 的 基本 单位 设置 为 Max_Payload_Size 参数 。 因 为 这 样 做 不 仅 
不 合理 ， 而 且 非 常 浪费 资源 。 将 Header 和 Data 缓存 分 离 ， 有 利于 Data 缓存 使 用 类 似 Adap- 
tive 流量 控制 的 方法 使 所 有 Data 共用 一 个 缓存 ， 从 而 提高 了 Data 缓存 的 利用 率 。 但 是 也 造 
成 TLP 因为 不 能 同时 具有 Head 和 Data 缓存 ， 而 无 法 传送 。 

在 PCIe 总 线 中 ,不 同 的 TLP 使 用 对 应 缓存 的 Unit 数量 也 不 同 ，Current 节点 有 时 需要 两 
种 缓存 才能 接收 一 个 TLP。 不 同 TLP 使 用 的 缓存 数目 如 表 9-2 所 示 。 

表 9-2 不 同 TLP 使 用 的 缓存 
TLP 缓存 种 类 
存储 器 、IO 和 配置 读 请 求 日 1 个 NPH 单元 。Non-Posted 数据 请 求 的 TLP 类 型 通过 完成 报 文 获得 数据 
存储 器 写 请 求 目 1 个 PH 单元 和 若干 PD 单元 。 存 储 器 写 请 求 使 用 的 PD 单元 与 Payload 的 长 度 相关 
配置 、1/0 写 请 求 1 个 NPH 单元 和 1 个 NPD 单元 。Non-Posted 数据 传送 类 型 通过 完成 报 文通 知 10 写 


ee 


人 


| 尝 | 冰 六 | 党 | 党 | 油 沪 | 六 | 六 
mm 


不 带 数 据 的 消息 请 求 日 1 个 PH 单元 
带 数据 的 消息 请 求 用 1 个 PH 单元 和 若干 个 PD 单元 
存储 器 读 完成 用 1 个 CplH 单元 和 若干 CplD 单元 。 读 完成 报 文 使 用 的 CplD 单元 与 Payload 的 长 度 
LIZO 和 配置 读 完成 用 1 个 CplH 单元 和 1 个 CplD 单元 
配置 、IO 写 完 成 使 用 1 个 CplH 单元 


由 上 表 所 示 ， 一 个 TLP 可 能 需要 使 用 两 种 缓存 ， 如 存储 器 写 请 求 需要 使 用 PH 和 PD 组 
存 。 这 也 意味 着 在 PCle 设备 的 VC 中 ,缓存 之 间 存 在 依赖 关系 。 当 Upstream 节点 向 Current 
节点 进行 存储 器 写 时 ， 发 送 方 必 须 同 时 具有 PH 和 PD 两 个 缓存 的 Credit 才能 进行 ; 而 向 
Current 节点 发 送 读 完成 TLP 时 ，Upstream 节点 必须 同时 具有 CplH 和 CplD 两 个 缓存 的 Credit 
才能 进行 。 这 为 PCIe 总 线 的 流量 控制 带 来 了 额外 的 麻烦 。 

此 外 ， 在 PCIe 总 线 中 ， 进 行 存 储 器 写 和 存储 器 读 完成 TLP 时 ， 究 竟 需 要 多 少 个 PD 或 
者 CplD 单元 是 随 TLP 而 变 的 ，VC 无 法 预知 确切 的 单元 数量 。 无 论 VC 采用 何 种 缓冲 分 配 策 
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略 ， 这 种 “不 可 预知 ”都 会 给 流量 控制 带 来 巨大 的 麻烦 。 

报 文 长 度 的 不 确定 性 为 PCIe 总 线 流量 控制 机 制 带 来 了 许多 难以 解决 的 问题 。 造 成 这 种 
现象 的 主要 原因 是 PCIe 总 线 源 于 PCI 总 线 ， 其 主要 应 用 来 自 PC 领域 而 不 是 通信 和 领域。PCIe 
总 线 为 了 向 前 兼容 PCI 总 线 ， 做 出 了 许多 功能 上 的 牺牲 。 

PCIle 总 线 使 用 Credit-Based 流 控 机 制 ，Upstream 节点 在 发 送 TLP 时 ， 必 须 首 先 获得 Cur- 
rent 节点 相应 缓存 的 Credit。 如 Upstream 节点 发 送 存储 需 写 请 求 时 ， 需 要 同时 具有 Current 节 
点 中 PH 缓存 和 PD 缓存 的 Credit， 才 能 进行 。 


9.3.2 Current 节点 的 Credit 


PCIe 总 线 规范 没有 强行 规定 采用 哪 种 算法 实现 Credit-Based 流量 控制 机 制 ， 因 此 PCIe 
总 线 上 的 Current 节点 可 以 选择 使 用 合理 的 Credit-Based 流量 控制 算法 ， 如 上 文 提 到 的 N123 
算法 或 者 N123 + 算法 。PCIe 总 线 规范 没有 规定 ， 各 类 节点 如 何 处 理 因为 链 路 延 时 而 产生 的 
额外 报 文 和 在 链 路 上 残留 的 报 文 。 

在 PCIe 流量 管理 中 还 存在 一 个 问题 就 是 PCle 总 线 上 各 个 节点 所 采用 的 流量 控制 算法 并 
不 完全 统一 ， 虽 然 PCle 总 线 对 此 进行 了 一 定 程 度 的 约定 ,但 是 这 个 约定 较为 模糊 。 因 为 在 
PCIe 总 线 中 ，Upstream 节点 、Current 节点 和 Downstream 节点 可 能 来 自 不 同 的 生产 厂商 。 虽 
然 这 种 流量 控制 算法 的 “不 统一 ”会 为 流量 控制 的 整体 效率 带 来 影响 ， 也 可 能 会 造成 接收 
缓冲 的 浪费 。 

但 是 这 种 “不 统一 ”并 不 会 严重 影响 PCle 总 线 的 流量 控制 机 制 。 因 为 PCIe 总 线 的 流量 
控制 基于 “ 链 路 到 链 路 ”进行 的 ， 只 要 链 路 的 两 端 采 用 相同 的 协议 满足 PCle 总 线 的 基本 约 
定 即 可 。PCIe 总 线 上 的 流量 控制 机 制 以 Intel 的 RC 实现 作为 事实 标准 。 

在 PCIe 总 线 中 ，Credit-Based 流量 控制 的 数据 传送 规则 仍然 是 Upstream 节点 获得 Credit， 
之 后 向 Current 节点 发 送 数据 ; 而 Current 节点 将 一 定数 量 的 报 文 (N2) 转发 到 Downstream 
节点 之 后 ， 将 向 Upstream 节点 反馈 Credit。PCle 总 线 规范 也 将 向 Upstream 节点 反馈 Credit 的 
过 程 称 为 Advertisement。 

PCIe 总 线 规范 并 没有 规定 如 何 设置 Credit， 但 是 规定 了 Credit 在 初始 化 之 后 的 最 小 值 ， 
即 Current 节点 发 向 Upstream 节点 的 Credit 的 最 小 值 ， 如 表 9-3 所 示 。PCle 总 线 中 ,不 同 的 
缓存 使 用 不 同 的 Credit 值 。 

表 9-3 PCle 总 线 初始 化 后 Credit 的 最 小 值 


Credit 的 类 型 Credit 的 最 小 值 
PH 缓存 Credit (PH) 的 最 小 值 为 0x01， 即 一 个 PH 单元 ， 大 小 为 5DW 
PD 缓存 Credit (PD) 的 最 小 值 为 Max_Payload_Size/ Unit( PD) 
NPH 缓存 Credit (NPH) 的 最 小 值 为 0x01， 即 一 个 NPD 单元 ， 大 小 为 5DW 
NPD 缓存 。 |， Credit (NPD) 的 最 小 值 为 0x01， 即 一 个 NPH 单元 ， 大 小 为 1DW。 值 得 注意 的 是 原子 操作 请 求 使 用 
的 Credit (NPD) 可 以 为 2DW 
ColH 缓存 如 果 Current 节点 不 是 “最 终 ” 节 点 ， 则 Credit (CplH) 的 最 小 值 为 0x01， 即 一 个 CplH 单元 ， 大 小 为 
P 汉人 |4DW， 否则 Credit (CplH) 为 0， 该 值 为 0， 表 示 “ 不 限 带 宽 (Infinite FC Unit)”， 其 详细 解释 见 下 文 
如 果 Current 节点 不 是 “最 终 ” 节 点 ， 则 Credit (CplD) 的 最 小 值 为 Max_Payload_Size/Unit( CplD) 9, 
CplD 缓存 . . 
否则 Credit (CplH) 为 0 
@ 注意 不 是 RCB/Unit (CPLD) 。 第 一 个 “最 终 ”节点 的 RCB 并 不 相等 ， 但 是 都 小 于 Max_Payload_Size。 
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“最 终 节点 ”共有 两 类 组 成 ， 一 个 是 EP， 因 为 当 一 个 报 文 到 达 EP 后 ， 将 不 会 被 再 次 转 
发 ， 此 时 FC Unit 为 0， 表 示 该 节点 将 无 条 件 接收 来 自 Upstream 节点 的 报 文 ， 而且 保证 一 定 
不 会 出 现 Overrun 的 现象 ， 这 就 是 PCle 总 线 规范 提出 的 Infinite FC Unit 的 含义 。 

这 也 意味 着 EP 在 发 起 存储 器 、1/O 和 配置 读 请 求 时 ， 必 须 为 存储 器 、LLO 和 配置 读 完 
成 报 文 预 留 必要 的 缓存 ， 保 证 这 些 完 成 报 文 一 定 能 够 被 EP 接收 。 值 得 注意 的 是 ， 只 有 设备 
在 接收 完成 报 文 时 ， 才 存在 Infinite FC Unit 的 概念 。 

在 许多 应 用 中 ,“ 最 终 节 点 ”支持 这 种 “Infinite FC Unit” 将 会 影响 PCIe 链 路 的 效率 。 
假设 一 个 PCIe 设备 进行 DMA 读 ， 从 主 存储 器 获得 数据 ， 如 果 该 PCIe 设备 支持 Infinite FC 
Unit， 其 传送 流程 如 下 所 示 。 

(1) PCIe 设备 向 RC 连续 发 送 存储 器 读 请 求 TLP。 

(2) PCIe 设备 每 发 送 一 个 读 请 求 TLP 时 ， 将 从 接收 缓冲 中 为 读 完 成 TLP 预 留 空间 。 因 
为 如 果 PCIe 设备 支持 Infinite FC Unit， 必 须 能 够 接收 这 些 读 完成 TLP。 

(3) 当 PCIe 设备 的 接收 缓冲 使 用 完毕 后 ， 将 不 能 发 送 存 储 器 读 请 求 TLP。 

(4) PCIe 设备 接收 来 自 RC 的 读 请 求 完 成 TLP， 并 将 其 传送 到 上 层 ， 同 时 释放 该 读 完成 
TLP 使 用 的 接收 缓存 。 

(5) PCIe 设备 获得 可 用 的 接收 缓存 后 ， 可 以 继续 发 送 存 储 器 读 请 求 TLP。 直 到 完成 所 有 
数据 请 求 。 

(6) PCIe 设备 获得 所 有 存储 器 读 完成 TLP 后 ， 结 束 整 个 DMA 读 过 程 。 

由 以 上 过 程 可 以 发 现在 (3) 和 (5) 中 ， 由 于 接收 缓冲 不 足 ， 整 个 DMA 读 过 程 无 法 形 
成 连续 的 流水 操作 ， 从 而 影响 DMA 读 的 数据 传送 效率 。 如 果 PCIe 设备 的 接收 缓冲 无 限 大 
时 ， 可 以 合理 地 解决 这 个 问题 ， 但 是 更 为 合理 的 方法 是 确定 接收 缓冲 的 最 小 值 。 接 收 缓冲 的 
最 小 值 由 PCIe 链 路 的 延 时 决定 ， 有 关 PCIe 总 线 延 时 的 详细 分 析 见 第 12.4 节 。 

还 有 一 类 “最 终 节点 ”是 RC, 但 RC 并 非 在 任何 情况 下 都 是 最 终 节 点 。 如 果 多 端口 RC 
的 各 个 端口 之 间 不 支持 转发 ( 即 PCle 总 线 规范 中 的 Peer-to-Peer 传送 方式 ) 时 ，RC 将 成 为 
“最 终 节 点 ”; 如 果 多 端口 RC 的 各 个 端口 之 间 支 持 转 发 ，RC 也 可 能 成 为 “最 终 节 点 ”。 数 据 
通过 多 端口 RC 的 流程 如 图 9-11 所 示 。 


DDR Controller 


图 9-11 多 端口 RC 的 数据 传递 


假设 在 一 个 RC 中 有 3 个 下 游 端 口 ， 分 别 是 端口 1，2，3， 这 些 端口 与 EP 或 者 Switch 相 
连 ; 还 有 一 个 上 游 端 口 ， 端 口 4， 与 FSB 相连 。 如 果 RC 支持 端口 转发 ， 当 到 达 端 口 1 的 
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TLP 的 目的 地 是 和 端口 2 或 者 3 相连 的 某 个 设备 时 ，Credit (CplH) 的 最 小 值 为 1， 而 Credit 
(CplD) 的 最 小 值 为 Max_Payload_Size/Unit( CplD) ， 此 时 RC 并 不 是 最 终 节 点 。 

如 果 到 达 端 口 1 的 TLP， 其 目的 地 是 端口 4 时 ，RC 就 是 “最 终 ” 节 点 ， 此 时 Credit 
(CplH) 和 Credit (CplD) 的 最 小 值 为 0， 流 量 控制 机 制 不 起 作用 , 来自 Upstream 节点 的 报 
文 可 以 不 进行 流量 检测 ， 直 接 进 入 RC， 而 RC 必须 保证 有 足够 的 缓存 接收 这 些 报 文 。 这 也 
意味 着 RC 发 起 读 请 求 报 文 时 ， 必 须 保 证 在 RC 中 有 足够 的 缓冲 接收 完成 报 文 。 

如 果 RC 支持 端口 间 的 相互 转发 ， 必 须 设置 必要 的 缓冲 以 支持 流量 控制 机 制 ， 此 时 RC 
可 能 成 为 某 个 TLP 的 Curent 节点 ， 因 此 RC 不 将 Credit (CplH) 和 Credit (CplD) 设 为 0， 
此 时 使 用 流量 控制 机 制 进行 报 文 转发 。 


9.3.3 VC 的 初始 化 


PCIe 总 线 使 用 FCP (Flow Control Packets) 传递 Credit 信息 ，FCP 是 一 种 DLLP， 该 报 文 
的 使 用 与 事务 层 的 接收 缓存 直接 相关 ， 但 是 对 事务 层 透 明 ， 该 报 文 产 生 于 数据 链 路 层 ， 终 止 
于 数据 链 路 层 。PCIe 总 线 定义 了 以 下 FCP， 如 表 9-4 所 示 。 


表 9-4 PCle 总 线 定义 的 FCP 


DLLP 类 型 编 码 
InitFC1-P 0b0100 OV Vi Vo 
InitFC1-NP 0b0101 OV,ViVo 
InitFC1-Cpl 0b0110 OV,ViVo 
InitFC2-P 0b1100 OV Vi Vo 
InitFC2-NP Ob1101 OV,ViVo 
InitFC2-Cpl 0b1110 0V,ViVo 
UpdateFC-P 0b1000 0V,ViVo 
UpdateFC-NP 0b1001 OV ViVo 
UpdateFC-Cpl 0b1010 0VsViVo 


@ VyViVo 与 VC 对 应 ，PCIe 总 线 规定 VC 个 数 的 最 大 值 为 8， 因 此 使 用 3 位 存放 VC 号 。 


由 上 表 所 示 FCP 共 分 为 三 大 类 InitFC1 、InitFC2 和 UpdateFC。 在 这 三 类 报 文 中 有 3 个 重 
要 的 字段 。 其 中 HdrFC 字段 存放 Header 的 Credit; DataFC 字段 存放 Data 的 Credit; 而 VC ID 
字段 存放 不 同 的 VC 号 。 其 报 文 格式 如 图 9-12 所 示 。 


7|6|15141312111017161s141312111017161514131211101716151413121110 


Byte 0 


Byte 4 16 Bit CRC 


图 9-12 FCP 的 格式 
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Current 节点 使 用 以 上 报 文 向 Upstream 了 节点 发 送 Credit 信息 尽 ， 呈 其 中 InitFCl 和 InitFC2 与 
VC 的 初始 化 相关 ， 而 UpdateFC 负责 向 Upstream 节点 反馈 Credit 信息 。 我 们 首先 讲述 Cur- 
rent 节点 如 何 使 用 InitFC1 和 InitFC2 报 文 初始 化 VC 的 流量 控制 ， 并 在 第 9.3.4 节 讲 述 如 何 
使 用 UpdateFC 报 文 实现 PCIe 总 线 的 流量 控制 。 

在 各 个 节点 能 够 正常 使 用 之 前 ， 首 先 需要 对 VC0 进行 初始 化 。 当 VC0 初始 化 完毕 之 后 ， 
PCle 设备 可 以 对 VC1 ~7 进行 初始 化 。 在 VC0 初始 化 完成 之 前 ， 设 备 不 能 接收 任何 TLP， 而 
VC0 初始 化 完毕 后 ，PCIe 总 线 的 相应 节点 在 使 用 VC0 接收 TLP 的 同时 ， 初 始 化 其 他 VC。 在 
VC 的 初始 化 过 程 中 存在 两 个 状态 ，FC_INITI1 和 FC_INIT2。 

PCIe 总 线 的 数据 链 路 层 共 有 三 个 状态 ， 分 别 为 DL_Inactive (PCIe 链 路 无 效 状 态 ， 链 路 
不 可 用 或 者 链 路 上 没有 连接 有 效 设 备 ) 、DL_Init (PCIe 链 路 可 用 ， 此 时 将 进行 VC0 的 初始 
化 ) 和 DL_Active ( 链 路 可 以 正常 使 用 ) 。 

当 Current 节点 的 数据 链 路 层 进入 DL_Init 状态 时 ， 该 节点 的 VC0 将 进入 FC_INITI 状态 。Cur- 
rent 节点 将 在 FC_INIT1 状态 首先 初始 化 VC0， 之 后 才能 初始 化 其 他 VC。 其 他 VC 的 使 能 位 在 
Curent 节点 的 配置 空间 中 ， 当 系统 软件 打开 这 些 使 能 位 时 ，Current 节点 将 初始 化 其 他 VC。 

当 Current 节点 的 VC 进入 FC_INIT1 状态 时 ， 事 务 层 需要 首先 禁止 该 VC 发 送 数据 报 文 ， 
随后 Current 节点 将 向 Upstream 节点 依 此 发 送 InitFC1-P、InitFC1-NP 和 InitFC1-Cpl2 报 文 初 
始 化 Upstream 节点 使 用 的 Credit。 

此 时 Current 节点 还 可 能 收 到 来 自 Downstream 节点 的 InitFC1-P、InitFC1-NP 和 InitFC1- 
Cpl 报 文 ， 并 初始 化 Current 节点 的 Credit。 当 Current 市 点 收 到 这 些 来 自 Downstream 节点 的 
FCP 后 ， 将 设置 对 应 缓冲 的 FIl 状态 位 为 1。 

当 Current 节点 所 有 缓存 的 FIl 状态 位 有 效 后 ，VC 将 进入 FC_INIT2 状态 。Current 节点 
进入 FC_INIT2 状态 之 前 ，Upstream 节点 获得 的 Credit 和 Current 节点 = 余 缓存 大 小 相等 ， 
Current 节点 获得 的 Credit 和 Downstream 节点 的 空余 缓存 大 小 相等 。 一 点 和 其 他 流量 控制 
机 制 类 似 ， 即 Crd_Bal 的 初始 值 为 Buf_Alloc。 

PCle 总 线 还 提供 了 FC_INIT2 状态 , 该 状态 的 主要 功能 是 验证 FC_INIT1 的 结果 。 当 节点 
进入 FC_INIT2 状态 时 ， 与 流量 控制 相关 的 缓存 已 未 初始 化 完毕 。PCle 总 线 设 置 FC_INIT1 
和 FC_INIT2 这 两 个 状态 与 数据 链 路 层 的 状态 机 相关 。 

如 第 7.1.1 节 所 示 ， 当 数据 链 路 层 处 于 DL_Init 状态 时 ， 将 初始 化 PCIe 总 线 的 流量 控制 
机 制 。 当 VC 处 于 FC_INIT1 状态 时 ， 数 据 链 路 层 通知 事务 层 DL_Down 状态 位 有 效 ， 此 时 事 
务 层 不 能 向 对 端 设备 发 送 TLP， 从 而 流量 控制 机 制 的 初始 化 可 以 在 一 个 “相对 没有 干扰 的 环 
境 ” 下 进行 。 

而 当 Current 节点 的 VC 进入 FC_INIT2 状态 时 ， 事 务 层 需要 首先 禁止 使 用 这 条 VC 发 送 
报 文 ， 之 后 Current 节点 向 Upstream 节点 依 此 发 送 InitFC2-P、InitFC2-NP 和 InitFC2-Cpl 报 文 
初始 化 Upstream 节点 的 发 送 缓冲 。 当 Upstream 节点 收 到 这 些 报 文 之 后 ， 将 丢弃 这 些 报 文中 
包含 的 Credit 信息 ， 并 设置 相应 的 FI2 状态 位 。 

同 理 Current 节点 也 将 收 到 来 自 Downstream 节点 的 InitFC2-P、InitFC2-NP 和 InitFC2-Cpl 


加 PCIe 总 线 规定 每 隔 34ks 发 送 一 组 InitFC 报 文 。 
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报 文 ， 并 设置 Current 节点 的 FT2 状态 位 。 当 所 有 数据 缓存 的 FI2 状态 位 有 效 后 ， 将 完成 
PCIle 链 路 流量 控制 机 制 的 初始 化 。 最 后 数据 链 路 层 通知 事务 层 DL_Active 状态 位 有 效 ， 此 时 
事务 层 可 以 使 用 这 个 VC 发 送 TLP。 


9.3.4 了 PCIe 设备 如 何 使 用 FCP 


PCIle 总 线 完成 流量 控制 的 初始 化 之 后 ，Current 节点 、Upstream 节点 和 Downstream 节点 
过 发 送 UpdateFC-P、UpdateFC-NP 和 UpdateFC-Cpl 报 文 进行 流量 控制 。 

1. Upstream 节点 向 Current 节点 发 送 报 文 

Upstream 节点 向 Current 节点 发 送 报 文 时 ， 需 要 设置 一 些 参数 。 

(1) CREDITS_CONSUMED ， 简 称 为 CC。 该 参数 存放 Upstream 节点 已 经 发 送 了 多 少 个 
FC Unit， 不 同 数据 缓存 的 FC Unit 的 大 小 见 表 9-3。 在 PCIe 设备 初始 化 时 该 参数 为 0， 之 后 
PCIe 设备 每 发 送 一 个 FC Unit， 该 值 将 加 1。PCIe 总 线 规定 

CC = (CC +Increment) mod 2 SY 

其 中 Inerement 指 发 送 的 TLP 含有 的 FC Unit 个 数 。 其 中 PH、NPH 和 CplH 的 Field Size 
参数 为 8， 而 PD、NPD 和 CplD 的 Field Size 参数 为 12。 

(2) CREDIT_LIMIT,， 简称 为 CL。 该 参数 存放 当前 节点 的 Credit， 在 VC 初始 化 时 ， 该 
参数 通过 收 到 的 InitFC1 报 文 赋值 。 此 后 每 收 到 UpdateFC 报 文 时 ，Current 节点 将 此 参数 与 
UpdateFC 报 文中 的 Credit 比较 ， 如 果 结 果 不 等 ， 则 使 用 UpdateFC 报 文 中 的 Credit 对 此 参数 
重新 赋值 。 

在 Upstream 节点 中 ， 设 置 了 一 个 Credit 检查 逻辑 (Transmitter Gating Function ) ， 用 来 判 
断 在 Current 节点 中 是 否 有 足够 的 缓存 接收 即将 发 送 的 TLP。 如 果 Upstream 节点 没有 足够 的 
Credit 时 ， 则 不 能 向 对 端 设 备 发 送 这 个 TLP。 

Upstream 节点 检查 缓存 的 算法 如 下 。 首 先 将 CUMULATIVE_CREDITS_REQUIRED 参数 
简称 为 CR, 而 CR =CC+ <PTLP( 即将 发 送 TLP 所 需要 的 Credit) > 。 当 以 下 公式 

( CL- CR) Mod2rFiad Size 过 2Field Size /FY 
成 立时 ， 表 示 Upstream 节点 可 以 向 Current 节点 发 送 TLP 报 文 。 

使 该 公式 成 立 有 一 个 额外 需求 ， 即 每 次 发 送 的 Credit 小 于 2™™*/29 ,此 时 CL 不 可 能 比 
CC 大 2me4se[2。 当 (CL-CR) Mod 2 不 大 于 22S%/2 时 ， 表 示 Current 节点 有 足够 的 组 
冲 接收 来 自 Upstream 节点 的 报 文 ;如果 (CL-CR) Mod 2 Se 大 于 2S J2 时 ， 运 算 结 果 是 
一 个 负数 ， 表 示 Current 节点 没有 足够 的 缓冲 接收 来 自 Upstream 节点 的 报 文 。 

2，Current 节点 从 Upstream 节点 接收 报 文 

Current 节点 接收 来 自 Upstream 节点 发 送 报 文 时 ， 也 需要 设置 一 些 参 数 。 

(1) CREDITS_ALLOCATED ， 简 称 为 CA。 该 参数 存放 Current 节点 一 共 人 允许 Upstream 节 
点 发 送 多 少 个 FC Unit， 不 同 数据 缓存 的 FC Unit 初始 化 后 使 用 的 最 小 值 见 表 9-3。 在 初始 化 
时 该 参数 为 Current 节点 接收 缓冲 的 大 小 ， 之 后 Current 节点 每 分 配 一 个 FC Unit， 该 值 将 加 


滞 


相当 于 N23 算法 的 N3 等 于 2LRe lp 此 时 可 以 防止 Current 节点 的 Underun。 但 是 PCIe 总 线 并 没有 规定 发 送 
Credit 的 频率 。 
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1。PCIe 总 线 规定 : 

CA = (CA +Increment) mod de 
其 中 Increment 指 Cuzrent 节点 新 分 配 的 FC Unit 个 数 。PH、NPH 和 CplH 的 Field Size 参数 为 
8， 而 PD、NPD 和 CplD 的 Field Size 参数 为 12。Current 节点 使 用 UpdateFC DLLP 将 CA 传递 
给 Upstream 节点 ， 之 后 Upstream 节点 使 用 该 值 更 新 CL 参数 。 

(2) CREDIT_RECEIVED， 简 称 为 CRCV。 该 参数 存放 Current 节点 一 共 接 收 了 多 少 个 
FC Unit。 在 初始 化 时 该 参数 为 0， 之 后 Current 节点 每 接收 一 个 FC Unit， 该 值 将 加 1。PCIe 
总 线 规定 : 

CRCV =(CRCV + Increment) mod 2 se 
其 中 Inerement 指 Current 节点 新 接收 的 FC Unit 个 数 。 

Current 节点 可 以 设置 一 个 逻辑 检查 部 件 ， 检 查 来 自 Upstream 节点 的 TLP 报 文 是 否 会 造 
成 CA 的 游 出 。 这 个 逻辑 检查 部 件 是 一 个 可 选 件 ， 因 为 Upstream 节点 在 发 送 TLP 时 ,已 经 保 
证 了 Cument 节点 的 CA 不 会 溢出 。 当 以 下 公式 

( CA-CRCV) Mod DID Size 三 2Field Sise yg 
成 立时 ，Current 节点 认为 CA 溢出 ， 此 时 Current 节点 将 抛弃 来 自 Upstream 节点 的 TLP， 而 
并 不 改变 CRCV 的 值 ， 同 时 释放 为 这 个 TLP 预先 分 配 的 缓存 空间 。 


9.4 小 结 


本 章 仅 使 用 了 较 少 的 篇 幅 讲 述 PCIe 总 线 的 流量 控制 机 制 ， 而 重点 讨论 通用 流量 控制 机 
制 的 基本 原理 。PCIe 总 线 由 于 强调 与 PCI 总 线 的 兼容 ,流量 控制 机 制 的 设计 并 不 完美 。 
PCIe 总 线 的 主要 应 用 领域 依然 是 PC， 在 这 个 领域 中 ,流量 控制 并 不 是 最 重要 的 。 
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第 10 章 MSI 和 MSI-X 中 断 机 制 


在 PCI 总 线 中 ， 所 有 需要 提交 中 断 请 求 的 设备 ， 必 须 能 够 通过 INTx 引 脚 提交 中 断 请 求 ， 
而 MSI 机 制 是 一 个 可 选 机 制 。 而 在 PCIe 总 线 中 ，PCIe 设备 必须 支持 MSI 或 者 MSI-X 中 断 请 
求 机 制 ， 而 可 以 不 支持 INTx 中 断 消 息 。 

在 PCIe 总 线 中 ，MSI 和 MSI-X 中 断 机 制 使 用 存储 器 写 请 求 TLP 向 处 理 器 提交 中 断 请 求 ， 
下 文 为 简便 起 见 将 传递 MSIAMSI-X 中 断 消息 的 存储 器 写 报 文 简称 为 MSIAMSI-X 报 文 。 不 同 
的 处 理 器 使 用 了 不 同 的 机 制 处 理 这 些 MSIZMSI-X 中 断 请 求 ， 如 PowerPC 处 理 器 使 用 MPIC 中 
断 控 制 器 处 理 MSL/MSI-X 中 断 请 求 ， 在 第 10. 2 节 中 将 介绍 这 种 处 理 情况 ， 而 x86 处 理 器 使 
用 FSB Interrupt Message 方式 处 理 MSIL/MSI-X 中 汤 请 求 。 

不 同 的 处 理 器 对 PCIe 设备 发 出 的 MSI 报 文 的 解释 并 不 相同 。 但 是 PCIe 设备 在 提交 MSI 
中 断 请 求 时 ， 都 是 向 MSIAMSI-X Capability 结构 中 的 Message Address 的 地 址 写 Message Data 
数据 ， 从 而 组 成 一 个 存储 器 写 TLP， 向 处 理 器 提交 中 断 请 求 。 

有 些 PCIe 设备 还 可 以 支持 Legacy 中 断 方式 ” 。 但 是 PCIe 总 线 并 不 鼓励 其 设备 使 用 Leg- 
acy 中 断 方式 ， 在 绝 大 多 数 情况 下 ，PCIe 设备 使 用 MSI 或 者 MSIAX 方式 进行 中 断 请 求 。 

PCIe 总 线 提供 Legacy 中 断 方式 的 主要 原因 是 ， 在 PCIe 体系 结构 中 ， 存 在 许多 PCI 设 
备 ， 而 这 些 设备 通过 PCIe 桥 连 接 到 PCIe 总 线 中 。 这 些 PCI 设备 可 能 并 不 支持 MSIAMSI-X 中 
断 机 制 ， 因 此 必须 使 用 INTx 信和 号 进行 中 断 请 求 。 

当 PCIe 桥 收 到 PCI 设备 的 INTx 信号 后 ， 并 不 能 将 其 直接 转换 为 MSILMSI-X 中 断 报 文 ， 
因为 PCI 设备 使 用 INTx 信号 进行 中 断 请 求 的 机 制 与 电 平 触发 方式 类 似 ， 而 MSLAMSI-X 中 断 
机 制 与 边沿 触发 方式 类 似 。 这 两 种 中 断 触发 方式 不 能 直接 进行 转换 。 因 此 当 PCI 设备 的 IN- 
Tx 信号 有 效 时 ，PCIe 桥 将 该 信号 转换 为 Assert_INTx 报 文 ， 当 这 些 INTx 信和 号 无 效 时 ，PCIe 
桥 将 该 信号 转换 为 Deassert_INTx 报 文 。 

与 Legacy 中 断 方式 相 比 ，PCIe 设备 使 用 MSI 或 者 MSI-X 中 断 机 制 ， 可 以 消除 INTx 这 个 
边 带 信 号 ， 而 且 可 以 更 加 合理 地 处 理 PCIe 总 线 的 “ 序 ”。 目 前 绝 大 多 数 PCIe 设备 使 用 MSI 
或 者 MSI-X 中 断 机 制 提交 中 断 请 求 。 

MSI 和 MSI-X 机 制 的 基本 原理 相同 ， 其 中 MSI 中 断 机 制 最 多 只 能 支持 32 个 中 断 请 求 ， 
而 且 要 求 中 断 向 量 连续 ， 而 MSI-X 中 断 机 制 可 以 支持 更 多 的 中 断 请 求 ， 而 并 不 要 求 中 断 向 
量 连 续 。 与 MSI 中 断 机 制 相 比 ，MSI-X 中 断 机 制 更 为 合理 。 本 章 将 首先 介绍 MSIAMSI-X Ca- 
pability 结构 ， 之 后 分 别 以 PowerPC 处 理 器 和 x86 处 理 器 为 例 介 绍 MSI 和 MSI-X 中 断 机 制 。 


10. 1 MSIAMSI-X Capability 结构 


PCIe 设备 可 以 使 用 MSI 或 者 MSI-X 报 文 向 处 理 器 提交 中 断 请 求 ， 但 是 对 于 某 个 具体 的 


加 通过 发 送 Assert_INTx 和 Deassert_INTx 消息 报 文 进行 中 断 请 求 ， 即 虚拟 中 断 线 方式 。 
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PCIe 设备 ， 可 能 仅 支 持 一 种 方式 。 在 PCIe 设备 中 含有 两 个 Capability 结构 ， 一 个 是 MSI Ca- 
pability 结构 ， 另 一 个 是 MSI-X Capability 结构 。 通 常情 况 下 一 个 PCIe 设备 仅 包 含 一 种 结构 ， 
或 者 为 MSI Capability 结构 或 者 为 MSI-X Capability 结构 。 


10. 1. 1 MSI Capability 结构 


MSI Capability 结构 共有 四 种 组 成 方式 ， 分 别 是 32 和 64 位 的 Message 结构 ，32 位 和 64 
位 带 中 断 Masking 的 结构 。MSI 报 文 可 以 使 用 32 位 地 址 或 者 64 位 地 址 ， 而 且 可 以 使 用 
Masking 机 人 制 使 能 或 者 禁止 某 个 中 断 源 。MSI Capability 寄存 器 的 结构 如 图 10-1 所 示 。 


32b Message Address 
31 16 15 8 7 0 
Message Address 


Message Data 


64b Message Address 


31 16 15 8 7 0 
Message Control Next Pointer | Capability ID 
Message Address 


Message Upper Address 


Message Data 


32b Message Address and Per-vector Masking 
31 16 15 87 0 


Message Control Next Pointer Capability ID 


Message Address 


Reserved Message Data 


Pending Bits 


64b Message Address and Per-vector Masking 
31 16 15 87 0 


Message Control Capability ID 


Message Address 


Message Upper Address 


Reserved Message Data 


Mask Bits 
Pending Bits 


图 10-1 MSI Capability 结构 


e Capability ID 字段 记载 MSI Capability 结构 的 ID 号， 其 值 为 0x05。 在 PCIe 设备 中 ， 每 
一 个 Capability 结构 都 有 唯一 的 ID 号 。 

e Next Pointer 字段 存放 下 一 个 Capability 结构 的 地 址 。 

e Message Control 字段 。 该 字段 存放 当前 PCIe 设备 使 用 MSI 机 制 进行 中 断 请 求 的 状态 与 
控制 信息 ， 如 表 10-1 所 示 。 
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表 10-1 MSI Cabalibities 结构 的 Message Control 字段 


Bits 定 义 描述 
15:9 Reserved 保留 位 。 系 统 软件 读 取 该 字段 时 将 返回 全 零 ， 对 此 字段 写 无 意义 
8 Per-vector Maskineg Capable 该 位 为 1 时 ， 表示 支持 带 中 断 Masking 的 结构 ; 如 果 为 0， 表 示 不 支持 带 中 断 
Se 8 P93? | Masking 的 结构 。 该 位 对 系统 软件 只 读 ， 在 PCIe 设备 初始 化 时 设置 


该 位 为 1 时 ， 表 示 支 持 64 位 地 址 结构 ;如 果 为 0， 表 示 只 能 支持 带 32 位 地 


q 64 Pit Adqdress Capable | 址 结构 。 该 位 对 系统 软件 只 读 ， 在 PCIe 设备 初始 化 时 设置 
该 字段 可 读 写 ， 表 示 软 件 分 配给 当前 PCIe 设备 的 中 断 向 量 数目 。 系 统 软件 根 
6:4 Multiple Message Fnable 据 Multiple Message Capable 字段 的 大 小 确定 该 字段 的 值 。 在 系统 的 中 断 向 量 资 
oS EAHG ”| 源 并 不 紧张 时 ，Multiple Message Capable 字段 和 该 字段 的 值 相等 ;而 资源 紧张 


时 ， 该 字段 的 值 可 能 小 于 Multiple Message Capable 字段 的 值 


该 字段 对 系统 软件 只 读 ， 表 示 当 前 PCIe 设备 可 以 使 用 几 个 中 断 向 量 号 ， 在 不 
同 的 PCle 设备 中 该 字段 的 值 不 同 。 当 该 字段 为 0b000 时 ， 表 示 PCIe 设备 可 以 
使 用 1 个 中 断 向 量 ; 为 0b001、0b010、0b011、0b100 和 0b101 时 ， 表 示 使 用 4、 
3:1 Multiple Message Capable | 8、16 和 32 个 中 断 向 量 ; 而 0b110 和 0b111 为 保留 位 。 该 字段 与 Multiple Mes- 
sage Enable 字段 的 含义 不 同 ， 该 字段 表示 当前 PCle 设备 支持 的 中 断 向 量 个 数 ， 
而 Multiple Message Enable 字段 是 系统 软件 分 配给 PCIe 设备 实际 使 用 的 中 断 向 
量 个 数 


该 位 可 读 写 ， 是 MSI 中 断 机 制 的 使 能 位 。 该 位 为 1 而 且 MSI-X Enable 位 为 0 
时 ， 当 前 PCIe 设备 可 以 使 用 MSI 中 断 机 制 ， 此 时 Legacy 中 断 机 制 被 禁止 。 一 
个 PCIe 设备 的 MSI Enable 和 MSI-X Enable 位 都 被 禁止 时 ， 将 使 用 INTx 中 断 消 
息 报 文 发 出 /结束 中 断 请 求 9 

e Message Address 字段 。 当 MSI Enable 位 有 效 时 ， 该 字段 存放 MSI 存储 器 写 事务 的 目的 

地 址 的 低 32 位 。 该 字段 的 31:2 字段 有 效 ， 系 统 软件 可 以 对 该 字段 进行 读 写 操 作 ; 该 

字段 的 第 1 ~0 位 为 0。 

e Message Upper Address 字段 。 如 果 64 bit Address Capable 位 有 效 ， 该 字段 存放 MSI 存 

储 器 写 事务 的 目的 地 址 的 高 32 位 。 

e Message Data 字段 ， 该 字段 可 读 写 。 当 MSI Enable 位 有 效 时 ， 该 字段 存放 MSI 报 文 使 
用 的 数据 。 该 字段 保存 的 数值 与 处 理 器 系统 相关 ， 在 PCIe 设备 进行 初始 化 时 ， 处 理 
器 将 初始 化 该 字段 ， 而 且 不 同 的 处 理 需 填写 该 字段 的 规则 并 不 相同 。 如 果 Multiple 
Message Enable 字段 不 为 0b000 时 〈 即 该 设备 文 持 多 个 中 断 请 求 时 ) ，PCIe 设备 可 以 
通过 改变 Message Data 字段 的 低位 数据 发 送 不 同 的 中 断 请 求 。 

。 Mask Bits 字段 。PCIe 总 线 规定 当 一 个 设备 使 用 MSI 中 断 机 制 时 ， 最 多 可 以 使 用 32 个 
中 断 向 量 ， 从 而 一 个 设备 最 多 可 以 发 送 32 种 中 断 请 求 。Mask Bits 字段 由 32 位 组 成 ， 
其 中 每 一 位 对 应 一 种 中 断 请 求 。 当 相应 位 为 1 时 表示 对 应 的 中 断 请 求 被 屏蔽 ,为 0 时 
表示 人 允许 该 中 断 请 求 。 系 统 软 件 可 读 写 该 字段 ， 系 统 初始 化 时 该 字段 为 全 0， 表 示人 允 
许 所 有 中 断 请 求 。 该 字段 和 Pending Bits 字段 对 于 MSI 中 断 机 制 是 可 选 字段 ， 但 是 
PCIe 总 线 规范 强烈 建议 所 有 PCIe 设备 支持 这 两 个 字段 。 

e Pending Bits 字段 。 该 字段 对 于 系统 软件 是 只 读 位 ，PCIe 设备 内 部 逻辑 可 以 改变 该 字 
段 的 值 。 该 字段 由 32 位 组 成 ， 并 与 PCIe 设备 使 用 的 MSI 中 断 一 一 对 应 。 该 字段 需要 


0 MSI Enable 


名 此 时 PCI 设 备 配 置 空间 Command 寄存 器 的 “Iterrupt Disable” 位 为 1。 
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与 Mask Bits 字段 联合 使 用 。 
当 Mask Bits 字段 的 相应 位 为 1 时 ， 如 果 PCIe 设备 需要 发 送 对 应 的 中 断 请 求 ，Pending 
Bits 字段 的 对 应 位 将 被 PCIe 设备 的 内 部 逻辑 置 1， 此 时 PCIe 设备 并 不 会 使 用 MSI 报 文 向 中 
断 控 制 器 提交 中 断 请 求 ， 当 系统 软件 将 Mask Bits 字段 的 相应 位 从 1 改写 为 0 时 ，PCle 设备 将 
发 送 MSI 报 文 向 处 理 需 提交 中 断 请 求 ， 同 时 将 Pending Bit 字段 的 对 应 位 清 零 。 在 设备 驱动 程 
序 的 开发 中 ， 有 时 需要 联合 使 用 Mask Bits 和 Pending Bits 字段 防止 处 理 器 丢弃 中 断 请 求 2 。 


10. 1. 2 ”MSI-X Capability 结构 


MSI-X Capability 中 断 机 制 与 MSI Capability 的 中 断 机 制 类 似 。PCIe 总 线 引 出 MSI-X 机 制 
的 主要 目的 是 为 了 扩展 PCIe 设备 使 用 中 断 向 量 的 个 数 ， 同 时 解决 MSI 中 断 机 制 要 求 使 用 中 
断 癌 量 号 连续 所 带 来 的 问题 。 

MSI 中 断 机 制 最 多 只 能 使 用 32 个 中 断 向 量 ， 而 MSI-X 可 以 使 用 更 多 的 中 断 向 量 。 目 前 
Intel 的 许多 PCIe 设备 支持 MSI-X 中 断 机 制 。 与 MSI 中 断 机 制 相 比 ，MSI-X 机 制 更 为 合理 。 
首先 MSI-X 可 以 支持 更 多 的 中 断 请 求 ， 但 这 并 不 是 引入 MSI-X 中 断 机 制 最 重要 的 原因 。 因 
为 对 于 多 数 PCle 设备 ，32 种 中 断 请 求 已 经 足够 了 。 而 引入 MSI-X 中 断 机 制 的 主要 原因 是 ， 
使 用 该 机 制 不 需要 中 断 控制 器 分 配给 该 设备 的 中 断 向 量 号 连续 。 

如 果 一 个 PCIe 设备 需要 使 用 8 个 中 断 请 求 且 使 用 MSI 机 制 时 ，Message Data 的 [2:0] 字 
段 可 以 为 0b000 ~0bl11， 因 此 可 以 发 送 8 个 中 断 请 求 ， 但 是 这 8 个 中 断 请 求 的 Message Data 
字段 必须 连续 。 在 许多 中 断 控制 右 中 ， Message Data 字段 连续 也 意味 着 中 断 控制 需 需 要 为 这 
个 PCle 设备 分 配 8 个 连续 的 中 断 向 量 号 。 

有 时 在 一 个 中 断 控制 器 中 ， 虽 然 具 有 8 个 以 上 的 中 断 向 量 号 ， 但 是 很 难保 证 这 些 中 断 向 
量 号 是 连续 的 。 因 此 中 断 控制 器 将 无 法 为 这 些 PCIe 设备 分 配 足够 的 中 断 请 求 ， 此 时 该 设备 
的 “Multiple Message Enable” 字 段 将 小 于 “Multiple Message Capable”。 

而 使 用 MSI-X 机 制 可 以 合理 解决 该 问题 。 在 MSI-X Capability 结构 中 ， 每 一 个 中 断 请 求 
都 使 用 独立 的 Message Address 字段 和 Message Data 字段 ， 从 而 中 断 控制 器 可 以 更 加 合理 地 为 
该 设备 分 配 中 断 资 源 。 

与 MSI Capability 寄存 需 相 比 ，MSI-X Capability 寄存 器 使 用 一 个 数组 存放 Message Ad- 
dress 字段 和 Message Data 字段 ， 而 不 是 将 这 两 个 字段 放 入 Capability 寄存 需 中 ， 本 书 将 这 个 
数组 称 为 MSI-X Table。 从 而 当 PCIe 设备 使 用 MSI-X 机 制 时 ， 每 一 个 中 断 请 求 可 以 使 用 独立 
的 Message Address 字段 和 Message Data 字段 。 

除 此 之 外 MSI-X 中 断 机 制 还 使 用 了 独立 的 Pending Table 表 ， 该 表 用 来 存放 与 每 一 个 中 
断 向 量 对 应 的 Pending 位 。 这 个 Pending 位 的 定义 与 MSI Capability 寄存 央 的 Pending 位 类 似 。 
MSI-X Table 和 Pending Table 存放 在 PCIe 设备 的 BAR 空间 中 。MSI-X 机 制 必须 支持 这 个 
Pending Table， 而 MSI 机 制 的 Pending Bits 字段 是 可 选 的 。 

1，MSI-X Capability 结构 

MSI-X Capability 结构 比 MSI Capability 结构 复杂 一 些 。 在 该 结构 中 ， 使 用 MSI-X Table 存 


MSI 机制 提交 中 断 请 求 的 方式 类 似 于 边界 触发 方式 ， 而 使 用 边界 触发 方式 时 ， 处 理 器 可 能 会 丢失 某 些 中 断 请 求 ， 
因此 在 设备 驱动 程序 的 开发 过 程 中 ， 可 能 需要 使 用 这 两 个 字段 。 
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放 该 设备 使 用 的 所 有 Message Address 和 Message Data 字段 ， 这 个 表格 存放 在 该 设备 的 BAR 
空间 中 ， 从 而 PCle 设备 可 以 使 用 MSI-X 机 制 时 ， 中 断 向 量 号 可 以 不 连续 ， 也 可 以 申请 更 多 
的 中 断 向 量 号 。MSI-X Capability 结构 的 组 成 方式 如 图 10-2 所 示 。 


31 16 15 87 0 
Message Control | Next Pointer | Capability ID 
Table Offset Table BIR 
PBA Offset 


图 10-2 ”MSI-X Capability 结构 的 组 成 方式 


上 图 中 各 字段 的 含义 如 下 所 示 。 

e Capability ID 字段 记载 MSI-X Capability 结构 的 ID 号 ， 其 值 为 0x11。 在 PCle 设备 中 ， 
每 个 Capability 都 有 唯一 的 有 D 号 。 

e Next Pointer 字段 存放 下 一 个 Capability 结构 的 地 址 。 

e Message Control 字段 ， 该 字段 存放 当前 PCIe 设备 使 用 MSI-X 机 制 进行 中 断 请求 的 状态 
与 控制 信息 ， 如 表 10-2 所 示 。 


表 10-2 MSI-X Capability 结构 的 Message Control 字段 


Bits 定 义 描 述 


该 位 可 读 写 ， 是 MSI-X 中 断 机 制 的 使 能 位 ， 复 位 值 为 0， 表 示 不 使 能 MSI-X 中 断 机 制 。 
15 MSLX Faable | 该 位 为 1 且 MSI Enable 位 为 0 时 ， 当 前 PCle 设备 使 用 MSI-X 中 断 机 制 ， 此 时 INTx 和 MSI 

| 中 断 机 制 被 禁止 。 当 PCle 设备 的 MSI Enble 和 MSI-X Enable 位 为 0 时 ， 将 使 用 INTx 中 断 
消息 报 文 发 出 /结束 中 断 请 求 


该 位 可 读 写 ， 是 中 断 请 求 的 全 局 Mask 位 ， 复 位 值 为 0。 如 果 该 位 为 1， 该 设备 所 有 的 
14 Function Mask | 中 断 请 求 都 将 被 屏蔽 ; 如 果 该 位 为 0， 则 由 Per Vector Mask 位 决定 是 否 屏蔽 相应 的 中 断 
请 求 。Per Vector Mask 位 在 MSI-X Table 中 定义 ， 详 见 下 文 


10:0 Table Si MSI-X 中 断 机 制 使 用 MSI-X Table 存放 Message Address 字段 和 Message Data 字段 。 该 字 
: able Size 8 区 es 
段 用 来 存放 MSI-X Table 的 大 小 ， 该 字段 对 系统 软件 只 读 


e Table BIR (BAR Indicator Register) 。 该 字段 存放 MSI-X Table 所 在 的 位 置 ，PCIe 总 线 
规范 规定 MSI-X Table 存放 在 设备 的 BAR 空间 中 。 该 字段 表示 设备 使 用 BAR0 ~5 寄 
存 器 中 的 哪个 空间 存放 MSI-X table。 该 字段 由 三 位 组 成 ， 其 中 0b000 ~0b101 与 BARO 
~5 空间 一 一 对 应 。 

e Table Offset 字段 。 该 字段 存放 MSI-X Table 在 相应 BAR 空间 中 的 偏 移 。 

e PBA (Pending Bit Array) BIR 字段 。 该 字段 表示 Pending Table 存放 在 PCIe 设备 的 哪 
个 BAR 空间 中 ,0 表示 BARO 空间 ，1 表示 BAR1 空间 ， 依 此 类 推 。 在 通常 情况 下 ， 
Pending Table 和 MSI-X Table 存放 在 PCIe 设备 的 同一 个 BAR 空间 中 。 

e PBA Offset 字段 。 该 字段 存放 Pending Table 在 相应 BAR 空间 中 的 偏 移 。 

2. MSI-X Table 

MSI-X Table 的 组 成 结构 如 图 10-3 所 示 。 

由 该 图 可 见 ，MSI-X Table 由 多 个 Entry 组 成 ， 其 中 每 个 Entry 与 一 个 中 断 请 求 对 应 。 每 

个 Entry 中 有 四 个 参数 ， 其 含义 如 下 所 示 。 
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DWORD 3 DWORD 2 DWORD 1 DWORD 0 


Vector Control Msg Data Msg Upper Addr Msg Addr Entry 0 
Vector Control Msg Data Msg Upper Addr Msg Addr Entry 1 
Vector Control Msg Data Msg Upper Addr Msg Addr Entry 2 
Vector Control Msg Data Msg Upper Addr Msg Addr Entry N-1 


图 10-3 ”MSI-X Table 的 组 成 结构 


e Msg Addr。 当 MSI-X Enable 位 有 效 时 ， 该 字段 存放 MSI-X 存储 器 写 事务 的 目的 地 址 的 
低 32 位 。 该 双 字 的 31:2 字段 有 效 ， 系 统 软件 可 读 写 ; 1:0 字段 复位 时 为 0，PCIe 设 
备 可 以 根据 需要 将 这 个 字段 设 为 只 读 ， 或 者 可 读 写 。 不 同 的 处 理 器 填 人 该 寄存 器 的 数 
据 并 不 相同 。 

e Msg Upper Addr， 该 字段 可 读 写 ， 存 放 MSI-X 存储 器 写 事 务 的 目的 地 址 的 高 32 位 。 

e Msg Data， 该 字段 可 读 写 ， 存 放 MSI-X 报 文 使 用 的 数据 。 其 定义 与 处 理 器 系统 使 用 的 
中 断 控制 器 和 PCIe 设备 相关 。 

e Vector Control， 该 字段 可 读 写 。 该 字段 只 有 第 0 位 ( 即 Per Vector Mask 位 ) 有 效 ， 其 
他 位 保留 。 当 该 位 为 1 时 ，PCIle 设备 不 能 使 用 该 Entry 提交 中 断 请 求 ; 为 0 时 可 以 提 
交 中 断 请 求 。 该 位 在 复位 时 为 0。Per Vector Mask 位 的 使 用 方法 与 MSI 机 制 的 Mask 位 
类 似 。 

3. Pending Table 

Pending Table 的 组 成 结构 如 图 10-4 所 示 。 


63 0 
Pending Bits 0 Through 63 QWORDO 
Pending Bits 64 Through 127 QWORD 1 
Pending Bits(N-1 div 64) X 64 Through N-1 QWORD((N-1) div 64) 


图 10-4 Pending Table 的 组 成 结构 


如 上 图 所 示 ， 在 Pending Table 中 ， 一 个 Entry 由 64 位 组 成 ， 其 中 每 一 位 与 MSI-X Table 
中 的 一 个 Entry 对 应 ， 即 Pending Table 中 的 每 一 个 Entry 与 MSI-X Table 的 64 个 Entry 对 应 。 
与 MSI 机 制 类 似 ，Pending 位 需要 与 Per Vector Mask 位 配置 使 用 。 

当 Per Vector Mask 位 为 1 时 ，PCle 设备 不 能 立即 发 送 MSI-X 中 断 请 求 ， 而 是 将 对 应 的 
Pending 位 置 1， 当 系统 软件 将 Per Vector Mask 位 清 零 时 ，PCIe 设备 需要 提交 MSI-X 中 断 请 
求 ， 同 时 将 Pending 位 清 零 。 


10.2 ”PowerPC 处 理 器 如 何 处 理 MSI 中 断 请 求 


PowerPC 处 理 器 使 用 OpenPIC 中 断 控制 器 或 者 MPIC 中 断 控制 器 ， 处 理 外 部 中 断 请 求 。 
其 中 MPIC 中 断 控制 器 基于 OpenPIC 中 断 控 制 器 ， 但 是 做 出 了 许多 增强 ， 目 前 Freescale 新 推 
出 的 PowerPC 处 理 器 ， 其 中 断 控制 器 多 与 MPIC 兼容 。 

值得 注意 的 是 ，PowerPC 处 理 器 和 x86 处 理 器 处 理 MSI 报 文 的 方式 有 较 大 的 不 同 。 其 中 
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x86 处 理 器 使 用 的 机 制 比 PowerPC 处 理 器 更 为 合理 ， 但 是 PowerPC 处 理 器 的 方法 使 用 的 硬件 
资源 相对 较 少 。 本 节 将 MPC8572 处 理 器 为 例 说 明 MSI 机 制 的 处 理 过 程 ， 在 第 10. 3 节 介 绍 
x86 处 理 器 如 何 实现 MSI 机 制 。 

MPIC 中 断 控 制 器 是 Freescale 的 PowerPC 处 理 器 使 用 的 通用 中 断 控制 器 ， 目 前 基于 E500 
内 核 的 处 理 器 ， 如 MPC854x 、8572 等 处 理 器 使 用 这 种 中 断 控制 器 。 目 前 Freescale 使 用 QorP 
架构 ， 该 架构 使 用 的 中 断 控制 絮 与 MPIC 兼容 。 

使 用 MPIC 中 断 控 制 器 处 理 MSI 中 断 时 ，PCIe 设备 的 MSI 报 文 ， 其 目的 地 址 为 MPIC 中 
断 控 制 器 的 MSIIR 寄存 器 。 当 该 寄存 器 被 PCle 设备 写 人 后 ，MPIC 中 断 控制 器 将 向 处 理 器 内 
核 提 交 中 断 请 求 ， 之 后 处 理 器 再 通过 读 取 MPIC 中 断 控 制 器 的 ACK 寄存 器 获得 中 断 向 量 号 ， 
并 进行 相应 的 中 断 处 理 。 这 种 方式 与 x86 处 理 需 的 FSB Interrupt Message 机 制 相 比 ， 处 理 需 
需要 读 取 ACK 寄存 器 ， 从 而 中 断 处 理 的 延 时 较 大 。 

目前 Freescale 的 P4080 处 理 咒 对 MPIC 中 断 控 制 需 进行 了 优化 。 在 P4080 处 理 需 中 ， 
MPIC 中 断 控 制 器 向 处 理 器 提交 中 断 请 求 的 同时 ， 也 向 处 理 絮 内 核 提 交 中 断 向 量 ， 处 理 器 内 
核 不 必 读 取 ACK 寄存 器 获得 中 断 向 量 ， 从 而 缩短 了 中 断 处 理 延 时 。 使 用 这 种 方法 的 效率 与 
x86 处 理 器 使 用 的 FSB Interrupt Message 机 制 相当 。 

目前 Freescale 并 没有 完全 公开 P4080 处 理 需 的 实现 细节 ， 因 此 本 节 仍 以 MPC8572 处 理 
器 为 例 介 绍 PCIe 设备 的 MSI 中 断 请 求 。 在 MPC8572 处 理 器 中 ，MPIC 中 断 控制 器 的 拓扑 结 
构 如 图 10-5 所 示 。 


MPIC 


Internal Interrupts Machine Check Imcpn 


External Interrupts 
IRQ[0:11] 


MPIC Defined 


Critical Interrupt cintn 


Exteranl 
connection 


OpenPIC-Defined 
Prioritization and IntO/Intl 
Nesting Logic 


MPIC-Programmable 
Reset Interrupt Target 
Processor 


Processor Core 
Initialization hresetn 


Register(PIR) 


Processor Core ; 
coren_nmi_core 
NMI(PNMI) Se 


图 10-5 MPIC 中 断 控 制 器 的 拓扑 结构 
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由 上 图 所 示 ，MPIC 中 断 控制 器 可 以 处 理 内 部 中 断 请 求 ?、 外 部 中 断 请 求 ，Message、 处 
理 器 间 中 断 请 求 和 Share MSI 中 断 请 求 等 。 而 MPIC 中 断 控制 器 使 用 Int0、Intl 等 中 断 线 向 处 
理 需 提交 这 些 中 断 请 求 。 其 中 Internal Interrupts 和 External Interrupts 模块 处 理 MPC8572 内 部 
和 外 部 的 中 断 请 求 ， 而 Share MSI 处 理 来 自 PCIe 设备 的 MSI 或 者 MSI-X 中 断 请 求 。 

当 MPIC 中 断 控制 器 收 到 MSI 报 文 后 ， 将 使 用 中 断 线 Pt0 、Ptl 或 者 cintn 向 处 理 屁 内 核 
提交 中 断 请 求 。 处 理 器 内 核 被 中 断后 ， 将 读 取 ACK 寄存 融 获 得 中 断 向 量 ， 然 后 执行 相应 的 
中 断 服务 例 程 。 为 此 PowerPC 处 理 器 设置 了 一 系列 寄存 器 ， 如 下 文 所 示 。 


10.2.1 MSI 中 断 机 制 使 用 的 寄存 器 


PowerPC 处 理 器 设置 了 一 系列 寄存 部， 处 理 来 自 PCIe 设备 的 MSI 报 文 ， 其 中 最 重要 的 
寄存 央 是 MSIIR 寄存 器 。 在 PowerPC 处 理 需 系统 中 ，PCIe 设备 Message Address 寄存 器 中 存 
放 的 值 都 为 MSITR 寄存 右 的 物理 地 址 ， 而 Message Data 寄存 需 中 存放 的 数据 也 与 MSIIR 寄存 
器 相关 。 

在 PowerPC 处 理 器 系统 中 ，MSI 机 制 的 实现 过 程 是 PCIe 设备 向 MSIIR 寄存 器 写 和 指定 
的 数据 。MPIC 中 断 控制 器 发 现 该 寄存 器 被 写 人 后， 将 向 处 理 器 提交 中 断 请 求 。 处 理 器 收 到 
这 个 中 断 请 求 后 ， 将 通过 读 取 MPIC 中 断 控制 句 的 ACK 寄存 带 确 定 中 断 癌 量 ， 并 依 此 确定 
中 断 源 。 为 此 PowerPC 处 理 器 还 设置 了 其 他 寄存 器 实现 MSI 中 断 机 制 。 

1，MSIIR 寄存 器 

在 PowerPC 人 处理 硕 中 ，MSIIR (Shared Message Signaled Interrupt Index Register) 寄存 需 
是 实现 MSI 机 制 的 重要 寄存 器 。 

当 PCIe 设备 对 MSIIR 寄存 器 进行 写 操作 时 ，MPC8572 处 理 器 将 使 能 MSIRO-MSIR7 寄存 
器 的 相应 位 ， 从 而 向 MPIC 中 断 控制 器 提交 中 断 请 求 ， 而 中 断 控 制 器 将 转发 这 个 中 断 请 求 ， 
由 处 理 器 进一步 处 理 。 该 寄存 器 各 字段 的 详细 描述 如 表 10-3 所 示 。 

表 10-3 MSIIR 寄存 器 
Bits 定 义 描述 


该 字段 用 来 选择 MSIRO ~ MSIR7 寄存 器 的 对 应 位 。0b00000 对 应 SHO; 
0b00001 对 应 SH1 ; 0b00010 对 应 SH2; 以 此 类 推 0b11111 对 应 SH31 


该 字段 用 来 选择 MSIRO ~ MSIR7 寄存 器 。0b000 对 应 MSIR0; 0b001 对 应 
MSIR1; 0b010 对 应 MSIR2; 以 此 类 推 0b111 对 应 MSIR7 


24 ~26 SRS 


0 ~24 保留 。 


PCIe 设备 通过 MSI 机 制 ， 向 此 寄存 器 写 人 数据 时 ，MSIR0 ~7 寄存 器 的 相应 位 SHO ~ 31 
将 有 一 位 置 1。 例 如 PCIe 设备 向 MSIIR 寄存 器 写 人 0xFF00000 时 ，MSIR7 寄存 器 的 SH31 位 
将 置 1 (SRS 字段 为 0b111 用 来 选择 MSIR7， 而 IBS 字段 为 0b11111 用 来 选择 SH31) 。 

2. MSIR 寄存 器 组 

MSIR (Shared Message Signaled Interrupt Registers) 寄存 器 组 共 由 8 个 寄存 器 组 成 ， 分 别 


加 ”PowerPC 处 理 器 中 含有 许多 模块 ， 如 千 兆 以 太 网 、ATM 等 ， 这 些 模块 包含 在 芯片 内 部 ， 由 这 些 内 部 模块 发 起 的 
中 断 请求 ， 被 称 为 内 部 中 断 请 求 。 
270 


为 MSIRO ~ MSIR7。 其 中 每 一 个 MSIRx 寄存 器 中 有 32 个 有 效 位 ， 分 别 为 SHO ~31。 当 PCle 
设备 对 MSIIR 寄存 器 进行 写 操作 时 ， 某 一 个 MSIIRx 寄存 器 的 某 个 SH 位 将 被 置 为 有 效 。 系 
统 软件 通过 读 取 该 寄存 器 获得 中 断 源 ， 该 寄存 器 读 清除 ， 对 此 寄存 器 进行 写 操作 没有 意义 。 

该 寄存 器 组 的 大 小 决定 了 一 个 PowerPC 处 理 器 支持 的 MSI 中 断 请 求 的 个 数 。 在 
MPC8572 处 理 器 中 ， 有 8 个 MSIRx 寄存 器 ， 每 个 寄存 器 由 32 个 有 效 位 组 成 ， 因 此 MPC8572 
处 理 需 最 多 能 够 处 理 256 个 MSI 中 断 请 求 。 该 寄存 器 的 结构 如 图 10-6 所 示 。 


0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 5 
| SH31 | SH30 | SH29 | SH28 | SH27 | SH26 | SH25 | SH24 | SH23 | SH22 | SH21 | SH20 | SH19 | SH18 | SH17 | SH16 | 


16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 
SH15 | sH14 | sH13 | sH12 | sH11 | sHi0 | SH9 | sH8 SH6 | SH5 | SH4 


图 10-6 MSIRx 寄存 器 的 结构 


3.，MSISR 寄存 器 

MSISR 寄存 器 (Shared Message Signaled Interrupt Status Register) 共 由 8 个 有 效 位 组 成 ， 
每 一 位 对 应 一 个 MSIR 寄存 器 。MPC8572 处 理 吉 设置 该 寄存 需 的 主要 目的 是 方便 系统 软件 定 
位 究竟 是 哪个 MSIR 寄存 器 中 存在 有 效 的 中 断 请 求 。 首 先 系 统 软件 通过 MSISR 寄存 器 判断 是 
哪个 MSIRx 寄存 器 存在 有 效 请 求 ， 之 后 读 取 相 应 的 MSIRx 寄存 器 ， 该 寄存 器 各 字段 的 详细 
描述 如 表 10-4 所 示 。 


表 10-4 MSISR 寄存 器 
Bits 定 义 描 述 
0 ~23 保留 
该 字段 由 8 位 组 成 ， 每 一 位 与 一 个 MSIR0 ~7 寄存 器 对 应 。 该 位 为 0 时 表 
示 在 MSIRn 寄存 器 中 没有 有 效 位 ， 即 没有 中 断 请 求 ; 该 位 为 1 时 表示 MSIRn 


寄存 器 中 至 少 有 一 个 有 效 位 ， 即 存在 中 断 请 求 。Sn 位 是 MSIRn 寄存 器 各 个 
位 的 “与 "， 当 MSIRn 寄存 器 的 相应 位 清除 时 ，Sn 也 将 被 清除 


24 ~31 Sn 


4. MSIVPR 寄存 器 组 

MSIVPR (Shared Message Signaled Interrupt Vector/ Priority Register) 寄存 器 组 由 8 个 寄存 
需 组 成 ， 分 别 为 MSIVPRO0 ~7 寄存 器 。 该 组 寄存 需 设 置 对 应 中 断 请 求 的 优先 级 别 和 中 晰 向 
量 。 其 中 每 个 MSIVPR 寄存 器 对 应 一 个 MSIR 寄存 器 ，MSIVPR 寄存 器 各 字段 的 详细 解释 如 
表 10-5 所 示 。 


表 10-5 MSIVPR 寄存 器 
Bits 定义 描 述 


该 位 为 0， 且 MSIR 寄存 器 的 对 应 位 为 1 时 ， 则 将 向 中 断 控制 器 提交 中 断 请 
求 ; 如 果 为 1 屏蔽 该 中 断 请 求 


该 位 为 0 时 ， 表 示 MPIC 中 断 控制 器 没有 处 理 该 中 断 请 求 ; 该 位 为 1 时 ， 
表示 MPIC 中 断 控 制 器 正在 处 理 该 中 断 请 求 ， 或 者 该 中 断 控制 器 准备 处 理 该 
1 A 中 断 请 求 ， 这 个 中 断 请 求 将 在 IPR ( Interrupt Pending Regsiter) 寄存 器 中 排队 
等 待 处 理 ， 或 者 在 ISR (Interrupt Service Register) 寄存 器 中 正在 被 处 理 。 该 
位 的 详细 描述 见 MPC8572 的 数据 手册 


OpenPIC 和 MPIC 中 断 控制 器 中 为 每 一 个 中 断 请 求 设置 了 0 ~15， 共 16 个 
优先 级 。 其 中 1 的 优先 权 最 低 ，15 的 优先 权 最 高 ，0 表示 禁止 中 断 请 求 


0 MSK 


12 ~15 PRIORITY 
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( 续 ) 


Bits 定 义 描 述 
163 VECTOR 该 字段 存放 该 中 断 的 中 断 向 量 。 当 处 理 器 读 取 IACK 寄存 器 时 ， 将 获得 对 
应 中 断 请 求 的 中 断 向 量 。 


通过 该 组 寄存 器 可 以 发 现 ， 在 MPC8572 处 理 器 系统 中 ，PCle 设备 最 多 可 以 使 用 8 个 中 
断 向 量 ， 并 可 以 共享 这 些 中 断 向 量 。 

5. MSIDR 寄存 器 组 

MSIDR (Shared Message Signaled Interrupt Destination Registers) 寄存 如 组 共 由 8 个 寄存 
器 组 成 ， 分 别 为 MSIDRO ~7。 其 中 每 一 个 MSIDRn 寄存 器 对 应 一 个 MSIR 寄存 器 。 

MPIC 中 断 控 制 需 支持 Pass-through 方式 ， 在 这 种 方式 下 ，PowerPC 处 理 器 可 以 使 用 外 部 
中 断 控制 需 处 理 中 断 请 求 (这 种 方法 极 少 使 用 ) ， 而 不 使 用 内 部 中 断 控制 颖 。MPIC 中 断 控 
制 器 可 以 使 用 cint# 和 int# 信 号 提交 中 断 请 求 ， 但 是 绝 大 多 数 系统 软件 都 使 用 int# 信 号 向 处 理 
器 提交 中 断 请 求 。 

此 外 在 MPC8572 处 理 器 中 有 两 个 CPU ， 分 别 为 CPUO 和 CPU1，MSI 机 制 提交 的 中 断 请 
求 可 以 由 CPUO 或 者 CPU1 处 理 。 系 统 软件 可 以 通过 设置 MSIDRn 寄存 需 完 成 这 些 功 能 ， 该 
寄存 器 各 字段 的 详细 描述 如 表 10-6 所 示 。 

表 10-6 MSIDRn 寄存 器 


Bits 定 义 描 述 
bd FP 为 1 时 ， 表 示 中 断 请 求 输出 到 IRQ_OUT 由 外 部 中 断 控 制 器 处 理 ; 为 0 时 ， 
表示 由 MPIC 中 断 控 制 器 处 理 
1 CI0 为 1 时 ， 表 示 中 断 控制 器 使 用 cint# 信 和 号 向 CPUO 提交 中 断 请 求 
2 CIl 为 1 时 ， 表 示 中 断 控制 器 使 用 cint# 信 和 号 向 CPU1 提交 中 断 请 求 
30 P1 为 1 时 ， 表 示 中 断 控制 器 使 用 int# 信 和 号 向 CPUO 提交 中 断 请 求 
31 P0 为 1 时 ， 表 示 中 断 控制 器 使 用 int# 信 和 号 向 CPU1 提交 中 断 请 求 


10.2.2 系统 软件 如 何 初始 化 PCIe 设备 的 MSI Capability 结构 


如 果 PCle 设备 支持 MSI 机 制 ， 系 统 软件 首先 设置 该 设备 MSI Capability 结构 的 Message 
Address 和 Message Data 字段 。 如 果 该 PCIe 设备 支持 64 位 地 址 空间 ， 即 MSI Capability 寄存 
侣 的 64 bit Address Capable 位 有 效 时 ， 系 统 软件 还 需要 设置 Message Upper Address 字段 。 系 
统 软件 完成 这 些 设 置 后 ， 将 置 MSI Capability 结构 的 MSI Enable 位 有 效 ， 使 能 该 PCIe 设备 的 
MSI 机 制 。 

其 中 Message Address 字段 所 填写 的 值 是 MSIIR 寄存 带 在 PCI 总 线 域 中 的 物理 地 址 。 在 
PowerPC 处 理 器 中 ，PCI 总 线 域 与 存储 器 域 地 址 空间 独立 ， 当 PCIe 设备 访问 存储 器 域 的 地 址 
空间 时 ， 需 要 通过 Inbound 寄存 器 组 将 PCI 总 线 域 地 址 空间 转换 为 存储 器 域 地 址 空间 。 

在 PowerPC 处 理 器 中 ，PCIe 设备 使 用 MSI 机 制 访问 MSIIR 寄存 器 时 ， 可 以 不 使 用 In- 
bound 寄存 器 组 进行 PCI 总 线 地 址 到 处 理 器 地 址 的 转换 。 在 MPC8572 处 理 器 中 ， 专 门 设置 了 
一 个 PEXCSRBAR 窗口 9 ， 进 行 PCI 总 线 域 到 存储 器 域 的 地 址 转换 ， 使 用 这 种 方法 可 以 节省 


”该 窗口 的 大 小 为 1 MB ， 其 基地 址 由 PEXCSRBAR 寄存 器 确定 。 


Inbound 寄存 器 窗口 ，Linux PowerPC 使 用 了 这 种 实现 方式 。 

在 MPC8572 处 理 器 中 ，MSIIR 寄存 器 的 基地 址 为 CCSRBARS ( Configuration ,Control, 
and Status Base Address Register) ， 其 偏 移 为 0x1740。 为 支持 MSI 中 断 机 制 ， 系 统 软 件 需 要 使 
用 PEXCSRBAR 窗口 将 MSIIR 寄存 器 映射 到 PCI 总 线 域 地 址 空间 ， 即 将 CCSRBAR 寄存 器 空 
间 映 射 到 PCI 总 线 域 地 址 空间 。 之 后 PCle 设备 就 可 以 通过 MSIIR 寄存 器 在 PCI 总 线 域 的 地 
址 访问 MSIIR 寄存 器 。 

Linux PowerPC 使 用 setup_pci_pcsrbar 函数 设置 PEXCSRBAR 窗口 ， 该 函数 的 源 代码 在 
. /arch/powerpc/sysdev/fsl_pci.c 文件 中 ， 如 源 代 码 10-1 所 示 ， 这 段 代 码 来 自 Linux 2. 6. 30. 5。 
源 代 码 10-1 setup_pci_pcsrbar 函数 


static void __init setup_pci_pcsrbar (struct pci_controller * hose ) 


| 
#ifdef CONFIG_PCI_MSI 


phys_addr_t immr_base; 


immr_base = get_immrbase (); 
early_write_config dword (hose, 0, 0, PCI_BASE_ADDRESS 0, immr_base); 
#endif 


| 


系统 软件 除了 需要 设置 PCle 设备 的 Message Address 字段 和 PEXCSRBAR 窗口 之 外 ， 还 
需要 设置 PCle 设备 的 Message Data 字段 。PCIe 设备 向 MSIIR 寄存 器 进行 存储 器 写 操 作 的 数 
据 存 放 在 Message Data 字段 中 。 

系统 软件 在 初始 化 Message Data 字段 之 前 ， 首 先 根据 Multiple Message Capable 字段 预先 
存放 的 数据 初始 化 Multiple Message Enable 字段 。 一 个 PCIe 设备 最 多 可 以 申请 32 个 中 断 请 
求 ， 但 是 系统 软件 根据 当前 处 理 器 系统 的 中 断 资源 的 使 用 情况 ， 决 定 给 这 个 PCIe 设备 提供 
多 少 个 中 断 向 量 ， 并 将 这 个 结果 存放 到 Multiple Message Enable 字段 。 

MPC8572 处 理 器 最 多 可 以 为 PCle 设备 提供 256 个 MSI 中 断 请 求 。 但 是 在 某 些 极端 的 情 
况 下 ， 可 能 会 出 现 PCle 设备 需要 的 中 断 请 求 超过 系统 所 能 提供 的 中 断 请 求 。 此 时 某 些 PCle 
设备 的 Multiple Message Enable 字段 可 能 会 小 于 Multiple Message Capable 字段 。 

如 果 在 PCIe 设备 中 ,使 用 了 多 个 中 断 请 求 ， 那 么 Message Data 字段 存放 的 是 一 组 中 断 
向 量 号 ， 而 Message Data 字段 存放 这 组 中 断 向 量 号 的 基地 址 。MSI 机 制 要 求 “ 这 组 数据 ” 连 
续 ， 其 范围 在 Message Data ~ Message Data + Multiple Message Enable-l 之 间 。 在 多 数 情况 下 ， 
MPC8572 处 理 器 系统 仅 为 一 个 PCIe 设备 分 配 1 个 中 断 向 量 号 。 

由 上 所 述 ， 在 MPC8572 处 理 器 系统 中 ，PCIe 设备 使 用 存储 器 写 TLP 传送 MSI 中 断 报 
文 ， 这 个 存储 器 写 TLP 使 用 的 地 址 为 PCIe 设备 Capability 结构 的 Message Address 字段 ， 而 


日 在 Linux PowerPC 中 使 用 immr base 变量 保存 该 寄存 器 。IMMR 寄存 器 是 PQ2 处 理 器 使 用 的 寄存 器 ， 该 寄存 器 在 
PQ3 之 后 的 处 理 吉 中 升级 为 CCSRBAR。 
四 该 函数 来 自 Linux 2. 6. 30. 5 内 核 。 
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数据 为 Message Data ~ Message Data + Multiple Message Enable-l 之 间 。 其 中 Message Data 字段 
与 MSIIR 寄存 器 要 求 的 格式 相同 。 

这 个 特殊 的 存储 器 写 TLP 报 文 通过 若干 Switeh， 并 穿越 RC 后 ， 最终 将 数据 写 人 MSIIR 
寄存 器 中 ， 并 设置 MSTIR 寄存 器 的 SRS 和 IBS 字段 ， 同 时 将 使 能 MSIRO ~ MSIR7 寄存 器 的 相 
应 位 ， 从 而 向 中 断 控制 器 提交 中 断 请 求 (如果 MSIVPR 寄存 器 的 MSK 位 为 1) 。MPIC 中 断 
控制 器 获得 该 中 断 请 求 后 ， 向 处 理 器 系统 转发 这 个 中 断 请 求 ， 并 由 处 理 器 系统 执行 相应 的 中 
断 服务 例 程 进行 中 断 处 理 。MPC8572 处 理 器 也 可 以 处 理 PCIe 设备 的 MSI-X 中 断 机 制 ， 本 节 
对 此 不 做 进一步 介绍 。 


10. 3 ” x86 处 理 器 如 何 处 理 MSI-X 中 断 请 求 


PCIe 设备 发 出 MSI-X 中 断 请 求 的 方法 与 发 出 MSI 中 断 请 求 的 方法 类 似 ， 都 是 向 Message 
Address 所 在 的 地 址 写 Message Data 字段 包含 的 数据 。 只 是 MSI-X 中 断 机 制 为 了 文 持 更 多 的 
中 断 请 求 ， 在 MSI-X Capablity 结构 中 存放 了 一 个 指向 一 组 Message Address 和 Message Data 
字段 的 指针 ， 从 而 一 个 PCle 设备 可 以 支持 的 MSI-X 中 断 请 求 数目 大 于 32 个， 而 且 并 不 要 求 
中 断 向 量 号 连续 。MSI-X 机 制 使 用 的 这 组 Message Address 和 Message Data 字段 存放 在 PCIe 
设备 的 BAR 空间 中 ， 而 不 是 在 PCIe 设备 的 配置 空间 中 ， 从 而 可 以 由 用 户 决定 使 用 MSI-X 中 
断 请 求 的 数目 。 

当 系 统 软件 初始 化 PCIe 设备 时 ， 如 果 该 PCIe 设备 使 用 MSI-X 机 制 传递 中 断 请 求 ， 需 要 
对 MSI-X Capability 结构 指向 的 Message Address 和 Message Data 字段 进行 设置 ， 并 使 能 MSI- 
X Enable 位 。x86 处 理 融 在 此 处 的 实现 与 PowerPC 处 理 禹 有 较 大 的 不 同 。 


10. 3.1 Message Address 字段 和 Message Data 字段 的 格式 


在 x86 处 理 器 系统 中 ，PCIe 设备 也 是 通过 向 Message Address 写 人 Message Data 指定 的 
数值 实现 MSL/MSI-X 机 制 。 在 x86 处 理 器 系统 中 ，PCIe 设备 使 用 的 Message Adress 字段 和 
Message Data 字段 与 PowerPC 处 理 如 不同。 

1.， PCle 设备 使 用 Message Adress 字段 
在 x86 处 理 器 系统 中 ，PCIe 设备 使 用 的 Message Address 字段 仍然 保存 PCI 总 线 域 的 地 
其 格式 如 图 10-7 所 示 。 


31 20 19 12 11 4 321 0 


图 10-7 Message Address 字段 的 格式 


其 中 第 31 ~ 20 位 存放 FSB Interrupts 存储 器 空间 的 基地 址 ， 其 值 为 0xFEE。 当 PCIe 设备 
对 0xFEEX-XXXX 这 段 “PCI 总 线 域 ”的 地 址 空间 进行 写 操作 时 ，MCHZICH 会 首先 进行 
“PCI 总 线 域 ”到 “存储 器 域 ” 的 地 址 转换 ， 之 后 将 这 个 写 操作 翻译 为 FSB 总 线 的 Interrupt 
Message 总 线 事务 ， 从 而 向 CPU 内 核 提 交 中 断 请 求 。 

x86 处 理 器 使 用 FSB Interrupt Message 总 线 事务 转发 MSILMSI-X 中 断 请 求 。 使 用 这 种 方 


法 的 优点 是 向 CPU 内 核 提 交 中 断 请 求 的 同时 ， 提 交 PCIe 设备 使 用 的 中 断 向 量 ， 从 而 CPU 不 
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需要 使 用 中 断 响应 周期 从 寄存 需 中 获得 中 断 向 量 。FSB Interrupt Message 总 线 事 务 的 详细 说 
明 见 下 文 。 

Message Address 字段 其 他 位 的 含义 如 下 所 示 。 

e Destination ID 字段 保存 目标 CPU 的 ID 号 ,目标 CPU 的 有 D 与 该 字段 相等 时 ， 目 标 
CPU 将 接收 这 个 Interrupt Message。FSB Interrupt Message 总 线 事务 可 以 向 不 同 的 CPU 
提交 中 断 请 求 。 

e RH (Redirection Hint Indication) 位 为 0 时 ， 表 示 Interrupt Message 将 直接 发 向 与 Des- 
tination ID 字段 相同 的 目标 CPU; 如 果 RH 为 1 时 ,将 使 能 中 断 转发 功能 。 

e DM (Destination Mode) 位 表示 在 传递 优先 权 最 低 的 中 断 请 求 时 ，Destination ID 字段 
是 否 被 翻译 为 Logical 或 者 Physical APIC ID。 在 x86 处 理 器 中 APIC ID 有 三 种 模式 ， 
分 别 为 Physical 、Logical 和 Cluster ID 模式 。 

e 如 果 RH 位 为 1 且 DM 位 为 0 时 ，Destination ID 字段 使 用 Physical 模式 ; 如果 RH 位 为 
1 且 DM 位 为 1，Destination ID 字段 使 用 Logical 模式 ; 如 果 RH 位 为 0，DM 位 将 被 
忽略 。 

以 上 这 些 字 段 的 描述 与 x86 处 理 器 使 用 的 APIC 中 断 控制 嚣 相关。 对 APIC 的 详细 说 明 
超出 了 本 书 的 范围 ， 对 此 部 分 感 兴 趣 的 读者 请 参阅 Intel 64 and IA-32 Architectures Software 
Developer s Manual Volume 3A: System Programming Guide, Part 1 。 

2.，Message Data 字段 

Message Data 字段 的 格式 如 图 10-8 所 示 。 


到 16151413 1110 8 7 0 


1 
| | 


Trigger Mode 
Delivery Mode 


图 10-8 Message Data 字段 的 格式 


Trigger Mode 字段 为 0b0x 时 ，PCIe 设备 使 用 边沿 触发 方式 申请 中 断 ; 为 0b10 时 使 用 低 
电 平 触发 方式 ; 为 0bl1 时 使 用 高 电 平 触发 方式 。MSIAMSI-X 中 断 请 求 使 用 边沿 触发 方式 ， 
但 是 FSB Interrupt Message 总 线 事 务 还 支持 Legacy INTx 中 断 请 求 方式 ， 因 此 在 Message Data 
字段 中 仍然 支持 电 平 触发 方式 。 但 是 对 于 PCIe 设备 而 言 ， 该 字段 为 0b0x。 

Vector 字段 表示 这 个 中 断 请 求 使 用 的 中 断 向 量 。FSB Interrupt Message 总 线 事务 在 提交 中 
断 请 求 的 同时 ， 将 中 断 向 量 也 通知 给 处 理 右 。 因 此 使 用 FSB Interrupt Message 总 线 事务 时 ， 
处 理 需 不 需要 使 用 中 断 响应 周期 通过 读 取 中 断 控制 器 获得 中 断 向 量 号 。 与 PowerPC 的 传统 方 
式 相 比 ，x86 处 理 器 的 这 种 中 断 请 求 的 效率 较 高 2 。 

值得 注意 的 是 ， 在 x86 处 理 器 中 ，MSI 机 制 使 用 的 Message Data 字段 与 MSI-X 机 制 相 
同 。 但 是 当 一 个 PCle 设备 支持 多 个 MSI 中 断 请 求 时 ， 其 Message Data 字段 必须 是 连续 的 ， 
因而 其 使 用 的 Vector 字段 也 必须 是 连续 的 ， 这 也 是 在 x86 处 理 器 系统 中 ，PCle 设备 支持 多 
个 MSI 中 断 请 求 的 问题 所 在 ， 而 使 用 MSI-X 机 制 有 效 避 免 了 该 问题 。 


名 P4080 处 理 器 也 提供 了 一 种 类 似 于 FSB Interrupt Message 总 线 事务 的 中 断 请 求 方法 。 
2739 


Delivery Mode 字段 表示 如 何 处 理 来 自 PCIe 设备 的 中 断 请 求 。 

。 该 字段 为 0b000 时 ， 表 示 使 用 “Fixed Mode” 方 式 。 此 时 这 个 中 断 请 求 将 被 Destina- 
tion ID 字段 指定 的 CPU 处 理 。 

e 该 字段 为 0b001 时 ， 表 示 使 用 “Lowest Priority” 方 式 。 此 时 这 个 中 断 请 求 将 被 优先 权 

最 低 的 CPU 处 理 。 当 使 用 “Fixed Mode” 和 “Lowest Priority” 方 式 时 ， 如 果 Vector 

字段 有 效 ，CPU 接收 到 这 个 中 断 请 求 之 后 ， 将 使 用 Vector 字段 指定 的 中 断 向 量 处 理 这 

些 中 断 请 求 ; 而 当 Delivery Mode 字段 为 其 他 值 时 ，Message Data 字段 中 所 包含 的 Vec- 

tor 字段 无 效 。 

该 字段 为 0b010 时 ， 表 示 使 用 SMI 方式 传递 中 断 请 求 ， 而 且 必 须 使 用 边沿 触发 ， 此 时 

Vector 字段 必须 为 0。 这 个 中 断 请 求 将 被 Destination ID 字段 指定 的 CPU 处 理 。 

该 字段 为 0b100 时 ， 表 示 使 用 NMI 方式 传递 中 断 请 求 ， 而 且 必 须 使 用 边沿 触发 ， 此 时 

Vector 字段 和 Trigger 字段 的 内 容 将 被 忽略 。 这 个 中 断 请 求 将 被 Destination ID 字段 指 

定 的 CPU 处 理 。 

该 字段 为 0b101 时 ， 表 示 使 用 INIT 方式 传递 中 断 请 求 ，Vector 字段 和 Trigger 字段 的 

内 容 将 被 忽略 。 这 个 中 断 请 求 将 被 Destination ID 字段 指定 的 CPU 处 理 。 

该 字段 为 0bl11 时 ， 表 示 使 用 INTR 信号 传递 中 断 请 求 且 使 用 边沿 触发 。 此 时 MSI 中 

断 信 息 首 先 传递 给 中 断 控制 器， 然后 中 断 控 制 器 通过 INTR 信和 号 向 CPU 传递 中 断 请 

求 ， 之 后 CPU 通过 中 断 响 应 周期 获得 中 断 向 量 。 上 文中 PowerPC 处 理 器 使 用 的 方法 

与 此 方法 类 似 。 而 在 x86 处 理 需 中 多 使 用 Interrupt Message 总 线 事务 进行 MSI 中 断 信 

息 的 传递 ， 因 此 这 种 模式 很 少 使 用 。 

边沿 触发 和 电 平 触发 是 中 断 请 求 常 用 的 两 种 方式 。 其 中 电 平 触发 指 外 部 设备 使 用 逻辑 电 
平 1 (高 电 平 触发 ) 或 者 0 ( 低 电 平 触发 ) ， 提 交 中 断 请 求 。 使 用 电 平 或 者 边沿 方式 提交 中 
断 请 求 时 ， 外 部 设备 一 般 通过 中 断 线 (IRQ_PIN#) 与 中 断 控制 器 相连 ， 其 中 多 个 外 部 设备 
可 能 通过 相同 的 中 断 线 与 中 断 控制 带 相 连 ( 线 与 或 者 与 门 ) 。 

外 部 设备 在 使 用 低 电 平 触发 提交 中 断 请 求 的 过 程 中 ， 首 先 需 要 将 IRQ_PIN# 信 号 驱动 为 
低 。 当 中 断 控制 器 将 该 中 断 请 求 提交 给 处 理 器 ， 而 且 处 理 器 将 这 个 中 断 请 求 处 理 完毕 后 ， 处 
理 器 将 通过 写 外 部 设备 的 某 个 寄存 器 来 清除 此 中 断 源 ， 此 时 外 部 设备 将 不 再 驱动 IRQ_PIN# 

言 号 线 ， 从 而 结束 整个 中 断 请 求 。 

IRQ_PIN# 信 号 线 可 以 被 多 个 外 部 设备 共享 ， 在 这 种 情况 之 下 ， 只 有 所 有 外 部 设备 都 不 
驱动 IRQ_PIN# 信 号 线 时 ，IRQ_PIN# 信 号 才 为 高 电 平 。 采 用 电 平 触发 方式 进行 中 断 请 求 的 优 
点 是 不 会 丢失 中 断 请 求 ， 而 缺点 是 一 个 优先 权 较 高 的 中 断 请 求 有 可 能 会 长 期 占用 中 断 资源 ， 
从 而 使 其 他 优先 权 较 低 的 中 断 不 能 被 及 时 提交 。 因 为 优先 级 别 较 高 的 中 断 源 可 能 会 持续 不 断 
地 驱动 IRQ_PIN# 信 号 。 

而 边沿 触发 使 用 上 升 沿 (0 到 1) 或 者 下 降 沿 (1 到 0) 作为 触发 条 件 ， 但 是 中 断 控制 
器 并 不 是 使 用 这 个 “边沿 ”作为 触发 条 件 。 中 断 控制 器 使 用 内 部 时 钟 对 IRQ_PIN# 信 号 进行 
采样 ， 如 果 在 前 一 个 时 钟 周期 ，IRQ_PIN# 信 号 为 0， 而 后 一 个 时 钟 周 期 ，IRQ_PIN# 信 和 号 为 
1， 中 断 控制 器 认为 外 部 设备 提交 了 一 个 有 效 “ 上 升 沿 ”， 中 断 控制 器 会 锁定 这 个 “上 升 沿 ” 
并 向 处 理 器 发 出 中 断 请 求 。 这 也 是 外 部 设备 至 少 需要 将 IRQ_PIN# 信 号 保持 一 个 时 钟 采样 周 
期 的 原因 ， 和 否则 中 断 控制 器 可 能 无 法 识别 本 次 边沿 触发 的 中 断 请 求 ， 从 而 产生 Spurious 中 断 
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请 求 。 

外 部 设备 使 用 “上 升 沿 ”进行 中 断 申请 时 ， 不 需要 持续 地 将 IRQ_PIN# 信 号 驱动 为 1， 
而 只 需要 保证 中 断 控制 器 可 以 进行 正确 采样 这 些 中 断 信 号 即 可 。 在 处 理 边 沿 触发 中 断 请 求 
时 ， 处 理 器 不 需要 清除 中 断 源 。 

使 用 边沿 触发 可 以 有 效 避 免 “ 优 先 级 别 ” 较 高 的 中 断 源 长 期 占用 IRQ_PIN# 信 号 的 情 
况 ， 使 用 “下 降 沿 ”触发 进行 中 断 请 求 与 “上 升 沿 ”触发 类 似 。 

但 是 外 部 设备 使 用 边沿 触发 方式 时 ， 有 可 能 会 丢失 一 些 中 断 请 求 。 例 如 在 一 个 处 理 器 系 
统 中 ， 存 在 一 个 定时 器 ， 这 个 定时 器 使 用 上 升 沿 触发 方式 向 中 断 控制 器 定时 提交 中 断 。 当 处 
理 右 正在 处 理 这 个 定时 器 的 上 一 个 中 断 请 求 时 ， 将 不 会 处 理 这 个 定时 器 发 出 的 其 他 “边沿 ” 
中 断 请 求 ， 从 而 导致 中 断 丢 失 。 而 使 用 电 平 触发 方式 不 会 出 现 这 类 问题 ， 因 为 电 平 触发 方式 
是 一 个 “持续 ”过 程 ， 处 理 器 只 有 处 理 完毕 当前 中 断 ， 并 清除 相应 中 断 源 之 后 ， 才 会 处 理 
下 一 个 中 断 源 。 

MSI 中 断 请 求实 际 上 和 边沿 触发 方式 非常 类 似 ，MSI 中 断 请 求 通过 存储 器 写 TLP 实现 ， 
这 个 写 动作 是 一 个 瞬间 的 动作 ， 并 不 是 一 个 持续 请 求 ， 因 此 在 x86 处 理 器 中 MSI 中 断 请 求 使 
用 边沿 触发 进行 中 断 请 求 。 

还 有 一 些 外 部 设备 可 以 通过 1/0 APIC 进行 中 断 请 求 ?， 这些 LO APIC 接收 的 外 部 中 断 
需要 标明 是 使 用 边沿 或 者 电 平 触发 ，LLO APIC 使 用 FSB Interrupt Message 总 线 事务 将 中 断 请 
求 发 向 Local APIC， 并 由 Local APIC 向 处 理 器 提交 中 断 请 求 。 


10. 3.2 FSB Interrupt Message 总 线 事 务 


与 MPC8572 处 理 器 处 理 MSI 中 断 请 求 不 同 ，x86 处 理 器 使 用 FSB 的 Interrupt Message 总 
线 事务 ， 处 理 PCIe 设备 的 MSIAMSI-X 中 断 请 求 。 由 上 文 所 示 ，MPC8572 处 理 需 处 理 MSI 中 
断 请 求 时 ， 首 先 由 MPIC 中 断 控制 器 截获 这 个 MSI 中 断 请 求 ， 之 后 由 MPIC 中 断 控 制 器 向 
CPU 提交 中 断 请 求 ， 而 CPU 通过 中 断 响应 周期 从 MPIC 中 断 控 制 器 的 ACK 寄存 器 中 获得 中 
断 向 量 。 

采用 这 种 方式 的 主要 问题 是 ， 当 一 个 处 理 器 中 存在 多 个 CPU 时 ， 这 些 CPU 都 需要 通过 
中 断 响应 周期 从 MPIC 中 断 控制 器 的 ACK 寄存 器 中 获得 中 断 疝 量 。 在 一 个 中 断 较 为 密集 的 
应 用 中 ，ACK 寄存 需 很 可 能 会 成 为 系统 瓶颈 。 而 采用 Interrupt Message 总 线 事务 可 以 有 效 地 
避免 这 种 系统 瓶颈 ， 因 为 使 用 这 种 方式 中 断 信 息 和 中 断 向 量 将 同时 到 达 指 定 的 CPU， 而 不 
需要 使 用 中 断 响应 周期 获得 中 断 向 量 。 

x86 处 理 器 也 具有 通过 中 断 控 制 器 提交 MSIAMSI-X 中 断 请 求 的 方法 ,在 IO APIC 具有 
一 个 “The IRQ Pin Assertion Register” 寄 存 器 ， 该 寄存 器 地 址 为 0xFEC000202， 其 第 4 ~0 位 
存放 IRQ Number。 系 统 软件 可 以 将 PCIe 设备 的 Message Address 寄存 器 设置 为 0xFEC00020， 
将 Meaasge Data 寄存 带 设 置 为 相应 的 IRQ Number。 

当 PCle 设备 需要 提交 MSI 中 断 请 求 时 ， 将 向 PCI 总 线 域 的 0xFEC00020 地 址 写 人 Mes- 
sage Data 寄存 器 中 的 数据 。 此 时 这 个 存储 器 写 请 求 将 数据 写 和 人 IO APIC 的 The IRQ Pin As- 


加 与 IO APIC 的 IRQX#3| 脚 链接 的 外 部 设备 。 
晶 ”该 寄存 器 在 存储 器 域 和 PCI 总线 域 中 的 地 址 都 为 0xFEC00020。 
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sertion Register 中 ， 并 由 IZO APIC 将 这 个 MSI 中 断 请 求 最 终 发 向 Local APIC， 之 后 再 由 Local 
APIC 通过 INTR# 信 号 向 CPU 提交 中 断 请 求 。 

上 述 步 骤 与 MPC8572 处 理 器 传递 MSI 中 断 的 方法 类 似 。 在 x86 处 理 器 中 ， 这 种 方式 基 
本 上 已 被 弃 用 。 下 面 以 图 10-9 为 例 ， 说 明 x86 处 理 器 如 何 使 用 FSB 总 线 的 Interrupt Message 
总 线 事 务 ， 向 CPU 提交 MSIAMSI-X 中 断 请 求 。 


CPUO CPUI1 CPU2 CPU3 
FSB 总 线 


图 10-9 使 用 Interrupt Message 总 线 事务 传递 MSI 中 断 请 求 


PCIe 设备 在 发 送 MSIAMSI-X 中 断 请 求 之 前 ， 系 统 软件 需要 合理 设置 PCIe 设备 MSIAMSI- 
X Capability 寄存 器 ， 使 Message Address 寄存 器 的 值 为 0xFEExx00y2 ， 同 时 合理 地 设置 Mes- 
sage Data 寄存 器 Vector 字段 。 

PCle 设备 提交 MSL MSI-X 中 断 请 求 时 ， 需 要 向 0xFEExx00y 地 址 写 Message Data 寄存 器 
中 包含 的 数据 ， 并 以 存储 器 写 TLP 的 形式 发 送 到 RC。 如 果 ICH 收 到 这 个 存储 器 写 TLP 时 ， 
将 通过 DMI 接口 将 这 个 TLP 提交 到 MCH。MCH 收 到 这 个 TLP 后 ， 发 现 这 个 TLP 的 目的 地 
址 在 FSB Interrupts 存储 器 空间 中 ， 则 将 PCIe 总 线 的 存储 右 写 请 求 转换 为 Interrupt Message 总 
线 事务 ， 并 在 FSB 总 线 上 广播 。 

FSB 总 线 上 的 CPU， 根 据 APIC ID 信息 ， 选 择 是 否 接收 这 个 Interrupt Message 总 线 事 务 ， 
并 进入 中 断 状态 ， 之 后 该 CPU 将 直接 从 这 个 总 线 事务 中 获得 中 断 向 量 号 ， 执 行 相应 的 中 断 
服务 例 程 ， 而 不 需要 从 APIC 中 断 控制 器 获得 中 断 向 量 。 与 PowerPC 处 理 器 的 MPIC 中 断 控 
制 器 相 比 ， 这 种 方法 更 具 优 势 。 


10.4 小 结 


本 章 详 细 描 述 了 MSI/MSI-X 中 断 机 制 的 原理 ， 并 以 PowerPC 和 x86 两 个 处 理 器 系统 为 例 
说 明 这 两 种 中 断 机 制 实现 机 制 。 本 章 因为 篇 幅 有 限 ， 并 没有 详细 讲述 这 两 个 处 理 器 使 用 的 中 
断 控制 器 。 而 理解 这 些 中 断 控 制 器 的 实现 机 制 是 进一步 理解 MSIMSI-X 中 断 机 制 的 要 点 。 
对 此 部 分 有 兴趣 的 读者 可 以 继续 阅读 MPIC 中 断 控制 器 和 APIC 中 断 控 制 器 的 实现 机 制 ， 以 
加 深 对 MSIAMSI-X 中 断 机 制 的 理解 。 

设备 的 中 断 处 理 是 局 部 总 线 的 设计 难点 和 重要 组 成 部 分 ， 而 中 断 处 理 的 效率 直接 决定 了 
局 部 总 线 的 数据 传送 效率 。 在 一 个 处 理 器 系统 的 设计 与 实现 中 ， 中 断 处 理 的 优化 贯彻 始终 。 


其 中 xx 表示 APIC ID， 而 y 为 RH+DM。 
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第 11 交 ”PCLPCIe 总 线 的 序 


在 一 个 处 理 器 系统 的 实现 中 ， 开 发 者 需要 注意 两 个 问题 ， 一 个 是 Cache 的 一 致 性 
(Cache Coherency) ， 另 一 个 是 数据 的 完整 性 (Data Consistency ) 。 深 入 理解 这 两 部 分 内 容 的 
过 程 贯 穿 处 理 器 体系 结构 学 习 的 始终 。 在 一 个 处 理 吉 系统 的 实现 过 程 中 ， 由 这 两 个 问题 引发 
的 系统 错误 是 最 难 定位 的 。 因 为 这 两 种 系统 错误 的 表现 形式 很 难 与 “Cache 共享 一 致 性 ”与 
“ 序 ” 联 系 在 一 起 ， 即 便 最 后 定位 是 这 两 种 原因 引发 的 系统 错误 ， 也 不 容易 复 现 这 些 系统 
错误 。 

本 章 主要 讲述 在 PCLPCIe 总 线 中 ， 数 据 传送 的 “ 序 ” 与 可 能 出 现 的 死 锁 。 在 总 线 体系 
结构 的 设计 中 需要 重点 考虑 序 与 死 锁 的 问题 ， 序 和 死 锁 一 直 是 系统 架构 设计 的 重点 所 在 ,也 
是 逻辑 性 要 求 较 强 、 最 容易 出 错 、 系 统 程序 员 容 易 忽 略 的 内 容 。 

所 谓 “ 序 ”是 指数 据 传送 的 顺序 ， 是 保证 数据 完整 性 的 基础 。 而 死 锁 是 指 两 个 以 上 的 
设备 在 访问 临界 资源 时 ， 相 互 等 待 对 方 释放 这 些 资源 ， 而 无 法 访问 这 些 资源 的 情况 。 合 理 地 
安排 访问 “ 序 ” 是 解决 死 锁 的 一 个 有 效 方法 。 

在 PCI/PCIe 总 线 中 ， 序 与 生产 /消费 者 模型 密切 相关 。 生 产 / 消 费 者 模型 是 一 种 并 发 协 
作 模 型 ，PCI/PCIe 设备 使 用 该 模型 进行 数据 传递 。 在 PCI/PCIe 总 线 中 ， 访 问 “ 序 ”的 安排 
必须 保证 生产 /消费 者 模型 的 正确 运转 ， 这 也 意味 着 在 PCI/PCIe 总 线 中 ， 数 据 的 传送 规则 需 
要 与 生产 /消费 者 模型 一 致 。 

合理 安排 数据 访问 的 “ 序 ” 对 于 一 个 系统 设计 是 至 关 重 要 的 ， 同 时 也 是 一 个 系统 设计 
的 基础 。 对 于 一 个 专用 系统 ， 生 产 消 费 者 模型 使 用 的 数据 缓冲 、Flag 和 Status 位 在 系统 中 的 
位 置 相对 固定 ， 以 此 为 基础 设计 合理 的 数据 访问 “ 序 ” 也 许 并 不 困难 。 

但 是 对 于 一 个 通用 处 理 器 系统 ， 数 据 缓冲 、Flag 和 Status 位 的 在 系统 中 位 置 并 不 国定 ， 
此 时 合理 安排 数据 访问 “ 序 ” 需 要 异常 续 密 的 思维 。 而 PCI/PCIe 总 线 针 对 的 就 是 这 样 的 一 
个 通用 处 理 器 系统 。 

本 章 将 在 第 11. 3 节 介 绍 PCI 总 线 的 序 ， 并 在 第 11. 4 节 详 细 介绍 PCIe 总 线 的 序 。 其 中 
PCIe 总 线 的 序 基于 PCI 总 线 的 序 ， 并 适当 简化 了 PCI 总 线 的 强 序 模型 ， 补 充 了 PCIe 总 线 的 
“Relaxed Ordering” 和 IDO (ID-Base Ordering) 模型 。 


11.1 生产 /消费 者 模型 


除了 在 PCILLPCIe 总 线 中 ， 互 连 网 络 中 的 数据 传递 以 及 多 进程 间 的 数据 通信 也 经 常 使 用 
生产 /消费 者 模型 。 生 产 / 消 费 者 模型 的 正确 运行 需要 一 些 必要 条 件 ， 该 模型 由 以 下 几 个 基本 
单元 组 成 。 

。 共享 数据 缓冲 。 由 生产 者 写 和 人， 消费 者 读 取 的 数据 区 域 。 

e 生产 者 。 数 据 的 提供 方 ， 生 产 者 需要 产生 数据 ， 并 在 消费 者 将 数据 读 出 后 ， 再 将 数据 

写 和 人 缓冲 中 。 
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。 消费 者 。 数 据 的 使 用 方 ， 消 费 者 将 消费 数据 ， 并 在 生产 者 将 数据 写 入 共享 缓冲 后 ,再 
获取 数据 。 

e Flag 位 。 生 产 者 通过 对 该 位 写 1 通知 消费 者 ， 已 经 将 数据 写 入 缓冲 中 。 消 费 者 通过 该 
位 判断 数据 缓冲 是 否 有 效 ， 为 1 表示 在 数据 缓冲 中 的 数据 已 经 被 生产 者 写 人 ; 为 0 表 
示 没 有 被 写 入 。 该 位 由 生产 者 写 1， 由 消费 者 清 零 。 

e Status 位 。 消 费 者 通过 对 该 位 写 1 通知 生产 者 ,已 经 将 数据 从 缓冲 读 出 ; 生产 者 通过 
该 位 判断 数据 缓冲 是 否 有 效 ， 为 1 表示 在 数据 缓冲 中 的 数据 已 经 被 消费 者 读 出 ; 为 0 
没有 读 出 。 该 位 由 消费 者 写 1， 由 生产 者 清 零 。 

生产 /消费 者 模型 需要 使 用 两 个 状态 位 完成 数据 的 交换 。 因 为 生产 者 和 消费 者 在 使 用 数 

据 缓 冲 时 ， 需 要 多 种 数据 状态 。 这 些 数据 状态 如 表 11-1 所 示 。 
表 11-1 Flag 和 Status 状态 位 


Flag Status 描 述 

0 0 空闲 状态 ， 此 时 数据 缓冲 为 空 

1 0 生产 者 写 入 数据 ， 但 是 消费 者 没有 使 用 该 数据 
0 1 消费 者 使 用 完毕 该 数据 

1 1 正常 情况 不 会 出 现 该 状态 


11.1.1 生产 /消费 者 的 工作 原理 


在 生产 /消费 者 模型 初始 化 时 ，Flag 和 Status 位 都 为 0， 之 后 生产 者 和 消费 者 通过 操纵 和 
检测 Flag 和 Status 位 ， 进 行 数据 传递 。 其 中 生产 者 负责 将 数据 填 入 到 数据 缓冲 中 ， 而 消费 者 
负责 将 数据 从 缓冲 中 取出 ， 其 实现 过 程 如 表 11-2 所 示 。 

表 11-2 生产 /消费 者 的 工作 流程 


生产 者 工作 流程 消费 者 工作 流程 
1 将 数据 写 和 人 缓冲 中 查询 Flag 位 ， 直 到 该 位 为 1 
2 置 Flag 位 为 1 置 Flag 位 为 0 
3 查询 Status 位 ， 直 到 该 位 为 1 将 数据 从 缓冲 中 读 出 
4 置 Status 位 为 0。 如 果 有 数据 发 送 ， 转 (1) 置 Status 位 为 1, 转 (1) 


由 以 上 描述 ， 可 以 发 现 生产 者 仅 轮 询 Status 位 ， 在 条 件 允许 时 将 该 位 清 零 ， 而 直接 
对 Flag 位 写 1 ; 消费 者 仅 轮 询 Flag 位 ， 并 在 条 件 允 许 时 将 该 位 清 零 ， 而 直接 对 Status 位 
写 1。 

设计 者 在 使 用 生产 /消费 者 模型 时 ， 需 要 注意 两 个 竞争 条 件 。 

(1) 由 于 生产 者 对 “Flag 位 置 1” 和 “数据 写 入 数据 缓冲 ”可 能 没有 采用 相同 的 路 径 ， 
因此 这 两 个 动作 不 一 定 同步 进行 。 当 生产 者 将 Flag 位 置 1 时， 可 能 数据 没有 完全 写 和 到 组 
冲 中 。 但 是 在 消费 者 查询 Flag 位 已 经 为 1， 并 将 该 位 清 零 之 后 ， 数 据 一 定 要 写 人 缓冲 中 ， 香 
则 消费 者 将 得 到 无 效 数据 。 

(2) 消费 者 对 “数据 从 缓冲 读 出 ”和 “Status 位 置 1” 也 可 能 没有 采用 相同 的 路 径 ， 这 
两 个 动作 也 不 一 定 同步 。 因 此 消费 者 将 Status 位 置 1 时 ， 可 能 数据 没有 完全 从 缓冲 中 读 出 。 
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但 是 在 生产 者 查询 Status 位 已 经 为 1， 并 将 该 位 清 零 之 后 ， 数 据 一 定 要 从 缓冲 读 出 ， 和 否则 生 
产 者 将 会 清除 缓冲 中 的 有 效 数 据 。 

由 此 可 见 ， 生 产 / 消 费 者 模型 的 正确 运行 是 有 条 件 的 。 为 此 在 一 个 实际 的 系统 应 用 中 ， 
必须 合理 安排 数据 访问 的 “ 序 ”， 使 得 该 模型 能 够 正常 运转 。 而 且 这 个 “ 序 ” 需 要 考虑 在 一 
个 系统 中 存在 多 个 生产 者 、 多 个 消费 者 和 多 个 数据 缓冲 的 情况 。 


11.1.2 生产 /消费 者 模型 在 PCL/PCIe 总 线 中 的 实现 


生产 /消费 者 模型 在 PCI/PCIe 总 线 中 得 到 了 充分 的 应 用 。 两 个 PCI 主 设备 之 间 进 行 数据 
传送 ,或 者 PCI 主 设备 进行 DMA 操作 时 需要 使 用 该 模型 。PCI 总 线 规定 ，PCI 设备 必须 按照 
生产 /消费 者 模型 提供 的 规则 访问 存储 器 或 者 0 资源。 采用 该 模型 对 于 PCI 设备 访问 存储 
器 或 者 /0 资源 时 避免 死 锁 和 保证 数据 完整 性 至 关 重要 。PCI/PCIe 总 线 规定 了 数据 访问 的 
顺序 ， 本 章 在 第 11. 3 和 第 11. 4 节 将 讲述 这 些 内 容 。 

下 文 以 两 个 PCI 主 设备 进行 数据 交换 说 明生 产 / 消 费 者 模型 的 实现 机 制 ， 假 设 这 两 个 
PCI 主 设备 在 进行 数据 交换 时 使 用 一 个 数据 缓冲 和 Flag 和 Status 这 两 个 状态 位 。 

在 PCI 总线 中 ， 数 据 传 送 只 要 遵循 合理 的 顺序 ， 无 论 生产 者 、 消 费 者 在 哪 一 级 PCI 总 线 
上 ， 数 据 缓冲 和 Flag、Status 状态 位 在 处 理 需 系统 的 什么 位 置 ， 都 能 准确 无 误 地 发 送 和 接收 
数据 ， et i 

下 面 以 图 11-1 为 例 ， 进 一 步 说 明 在 PCI 总 线 中 ， 和 生产/ 消费 者 模型 的 运转 过 程 。 其 中 消 
费 者 与 数据 缓冲 在 同一 条 PCI i 而 Flag 位 、Status 位 和 生产 者 在 另外 一 条 PCI 总 线 
上 。 这 两 条 PCI 总 线 之 间 通 过 一 个 PCI 桥 进 行 连接 。 在 这 种 处 理 器 系统 中 ， 生 产 /消费 者 模 
型 的 详细 运转 过 程 见 表 11-3。 


轮 询 并 清除 Flag 数据 缓冲 生产 者 写 人 

位 ; 消费 数据 ， 。“ PCI 总 线 0 ”消费 者 读 取 
设置 Status 位 

消费 者 置 位 _ 

生产 者 清 零 ” PCI 总 线 1 下 庆 颈 后 ， 设 间 


生产 者 置 位 -| Flag 位 ， 轮 询 并 
消费 者 清 零 ~ | Flag 位 | | Status 位 | | Status 位 | 位 清除 Status 位 


图 11-1 生产 消费 者 模型 的 实例 


PCI 桥 的 存在 为 生产 /消费 者 模型 在 PCI 体系 结构 中 的 实现 带 来 了 新 的 挑战 ，PCI 桥 可 以 
缓存 一 些 报 文 ， 因 此 来 自 PCI 设备 的 报 文 并 不 能 立即 到 达 目的 地 。 其 中 Flag 和 Status 位 的 初 
始 值 为 0。 

表 11-3 基于 PCI 总 线 的 生产 /消费 者 模型 的 详细 描述 


步 ”又 操 ” 作 描述 
生产 者 通过 PCI 桥 ， 使 用 生产 者 和 数据 缓冲 不 在 同一 条 总 线 上 ， 因 此 生产 者 首先 使 
1 Posted 方式 将 数据 写 人 数据 缓 | 用 Posted 写 周 期 将 数据 写 和 人 PCI 桥 ， 并 不 会 立刻 到 达 数 据 
冲 中 缓冲 
六 生产 者 将 Flag 位 置 1 Flag 位 和 生产 者 在 同一 条 总 线 上 ，Flag 位 会 被 立即 置 位 


28] 


( 续 ) 


步 又 操 作 描述 
生产 者 轮 询 Status 状态 位 ， FE 产 才 大同 一 条 沿线 生产 老 可 以 立 1 人 日 
5 判断 数据 缓冲 中 的 数据 是 否 被 Status 位 和 生产 者 在 同一 条 总 线 上 ， 生 产 者 可 以 立即 获得 


消费 者 处 理 完毕 Status 位 的 信息 


Flag 位 和 消费 者 不 在 同一 条 总 线 上 ， 因 此 消费 者 首先 将 读 
请 求 发 向 PCI 桥 ，PCI 桥 将 使 用 Delayed 读 总 线 请 求 周期 获得 
数据 ， 同 时 可 能 使 用 “Retry” 周 期 结束 消费 者 的 读 请 求 。 为 
保证 生产 /消费 者 模型 的 正确 运行 ，PCI 桥 必 须 进行 以 下 操作 

i J 大 人 人 读 取 Flag 位 。 
. 消费 者 轮 询 Flag 状态 位 1， 为 了 保证 读 请 求 的 正确 性 ，PCI 桥 需要 首先 将 与 读 请 求 相 
同方 向 的 Posted 写 请 求 发 送出 去 ， 即 发 送 到 PCI 总 线 1 上 。 
2. PCI 桥 读 取 Flag 位 。 
3. PCI 桥 将 所 有 Posted 写 请 求 发 送 到 PCI 总 线 0 上 。 
4. PCI 桥 将 Flag 信息 发 送 给 消费 者 


如 果 消 费 者 发 现 Flag 位 被 生 这 个 清 零 操作 首先 也 是 发 向 PCI 桥 ， 并 不 会 立刻 到 达 


3 产 者 置 为 1， 则 将 Flag 位 清 零 “| Flag 位 
6 了 消费 者 与 数据 缓冲 在 同一 条 总 线 上 ， 可 以 吉 接 获得 数据 
站 弗 刀 村 人 胡 之 比 泣 此 沥 握 消费 者 和 Status 位 不 在 同一 条 总 线 上 ， 因 此 生产 者 首先 使 
7 消费 者 外 理 守 生 这些 数据 后 ，| 用 Posted 写 周期 将 数据 写 入 PCI 桥 ， 并 不 会 立刻 更 新 
将 Status 位 置 1 Status 位 
， 定 玫 次 到 纤 于 作 训 全 人 出 | 消费 者 再 一 次 读 取 Flag 位 时 ， 仍 然 需要 路 越 PCI 桥 ， 此 时 
年 拓 人 年 在 有 新 站 全 项 | 强制 将 PCI 桥 中 的 Posted 写 总 线 事务 刷新 出 去 
需要 处 理 
生产 者 读 取 Status 位 ， 并 依 这 并 疙 在 同一 条 着 线 Ni 日 
9 此 判断 消费 者 是 否 处 理 完 毕 数 人 位 在 同一 条 总 线 上 ， 因 此 可 以 立即 获得 
据 缓冲 中 的 数据 Sms 
10 如 果 Status 位 为 1， 则 生产 者 生产 者 和 Status 位 在 同一 条 总 线 上 ，Status 位 可 以 立即 被 
将 Status 位 清 零 更 曾 
如 果 生 产 者 继续 提供 数据 ， 
11 重 


重新 启动 整个 生产 /消费 者 


沙 盖 
能 且 


由 以 上 过 程 可 以 发 现 ， 由 于 PCI 桥 的 存在 数据 并 不 能 立即 到 达 目 的 地 ， 因 此 有 可 能 造成 
总 线 死 锁 和 数据 不 完整 等 一 系列 问题 ， 最 终 导致 生产 /消费 者 模型 不 能 在 PCI 总 线 上 正确 运 
行 。 为 了 解决 这 个 问题 ，PCI 总 线 规定 了 一 系列 与 数据 传送 “ 序 ” 有 关 的 规则 。 

如 果 PCI 设备 不 满足 这 个 “ 序 ” 的 要 求 ， 就 有 可 能 出 现 数据 完整 性 的 问题 ， 从 而 导致 
数据 传送 失败 。 如 果 读 者 有 机 会 设计 基于 PCI/PCIe 总 线 的 设备 ， 需 要 认真 考虑 这 个 序 的 问 
题 。 值 得 注意 的 是 ，PCIle 总 线 的 序 与 PCI 总 线 的 序 略 有 区 别 ， 在 第 11. 4 节 将 详细 讨论 PCIe 
总 线 的 序 。 

在 PCI/PCIe 总 线 中 ,使 用 Posted 总 线 请 求 比 Non-Posted 总 线 请 求 传送 数据 的 延 时 更 短 。 
因此 在 一 个 具体 的 实现 中 ， 如 果 Status 位 距离 生产 者 的 路 径 较 近 时 ， 轮 询 该 位 的 代价 较 低 ，; 
同 理 Flag 位 距离 消费 者 的 路 径 较 近 时 ， 轮 询 该 位 的 代价 也 较 低 。 

值得 注意 的 是 ， 在 PCI 体系 结构 中 ， 无 论 生产 者 、 消 费 者 、Flag 和 Status 位 在 处 理 器 系 
统 的 哪 级 PCI 总 线 中 ,生产 /消费 者 模型 都 可 以 正常 运行 ， 为 此 PCI 总 线 详细 规定 了 数据 传 
送 的 顺序 ，PCI 总 线 的 “ 序 ” 对 于 理解 PCI 体系 结构 至 关 重 要 ， 读 者 需要 重视 这 部 分 内 容 。 
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本 书 建议 读者 改变 图 11-1 中 生产 者 、 消 费 者 、Plag 和 Status 位 的 位 置 ， 按 照 第 11. 3 节 提 供 
的 规则 ， 验 证 生产 /消费 者 协议 在 PCI 总 线 中 的 正确 性 。 


11.2 PCI 总 线 的 死 锁 


Tom Shanley 与 Don Anderson 对 PCI 总 线 的 死 锁 进行 了 详细 说 明 ， 本 节 首 先 通过 两 个 实 
例 说 明 在 PCI 总 线 中 存在 的 死 锁 问题 。 其 中 第 1 个 实例 是 因为 缓冲 管理 不 慎 而 导致 的 死 锁 ， 
而 第 2 个 实例 是 因为 数据 传送 的 顺序 而 导致 死 锁 。 本 节 更 侧重 介绍 因为 数据 的 传送 顺序 而 导 
致 的 死 锁 。 


11.2.1 缓冲 管理 引发 的 死 锁 


如 图 11-2 所 示 ， 假 设 在 一 条 PCI 总 线 上 有 两 个 非 桥 设 备 A 和 B。 其 中 A 和 了 B 之 间 相 互 
进行 存储 器 写 操作 ， 这 个 存储 器 写 操 作 需 要 使 用 设备 A 和 B 内 部 的 缓冲 区 。 而 且 设备 A/B 
的 发 送 部 件 和 接收 部 件 共享 同一 个 数据 缓冲 。 在 图 11-2 的 左 图 中 PCI 设备 A/B 的 发 送 和 接 
收 缓冲 共用 了 一 个 数据 缓冲 ， 而 在 右 图 中 将 这 两 者 分 离 。 


PCI es 
数据 缓冲 数据 缓冲 发 送 | | 接收 
一 一 | | 一 一 
设备 A 设备 B 设备 B 


图 11-2 PCI 总 线 中 的 死 锁 实例 1 


设备 A 和 B 进行 存储 器 写 操 作 的 流程 如 下 。 

(1) 设备 A 和 B 同时 申请 PCI 总 线 资源 ， 同 时 A 和 B 已 经 将 即将 发 送 的 数据 写 入 各 自 
的 缓冲 区 中 ， 准 备 进行 数据 传递 。 

(2) 设备 A 通过 总 线 仲裁 优先 使 用 PCI 总 线 ， 同 时 将 缓冲 区 中 的 数据 发 向 设备 B。 

(3) 设备 B 因为 在 缓冲 区 中 尚 有 数据 需要 传递 ， 因 此 使 用 重 试 周期 拒绝 了 设备 A 的 数 
据 请 求 ， 并 获得 PCI 总 线 的 使 用 权 ， 将 缓冲 区 中 的 数据 发 向 设备 A。 

(4) 设备 A 也 因为 在 缓冲 区 中 尚 有 数据 需要 传递 ， 而 使 用 重 试 周 期 拒绝 了 设备 B 的 数 
据 请 求 。 

(5) 在 这 种 情况 下 ,设备 A 和 设备 B 都 因为 对 方 的 缓冲 正在 被 使 用 ， 而 无 法 完成 存储 
器 写 ， 从 而 产生 了 死 锁 。 

从 这 个 例子 中 可 以 发 现 ， 如 果 PCI 设备 对 缓冲 区 的 管理 不 慎 ， 极 易 造成 死 锁 。 我 们 可 以 
采用 一 种 简单 的 方法 解决 这 类 死 锁 问题 ， 只 要 设备 A、B 将 接收 和 发 送 使 用 的 缓冲 分 离 ， 这 
样 可 以 保证 在 步骤 3 中 ,设备 B 可 以 接收 来 自 设备 A 的 数据 ， 从 而 避免 了 死 锁 。 


11.2.2 数据 传送 序 引 发 的 死 锁 


本 节 首 先 分 析 一 个 在 PCI 总 线 中 死 锁 的 实例 。 假 设 在 PCI 桥 A 中 存放 了 一 个 Posted 写 请 
求 ， 该 请 求 正在 准备 发 向 Secondary PCI 总 线 。 而 在 PCI 桥 A 还 没有 获得 Seconday PCI 总 线 
的 使 用 权时 ，Secondary 总 线 上 的 PCI 设备 B， 需 要 使 用 Delayed 总 线 事务 通过 该 PCI 桥 从 主 
存储 右 中 读 取 数据 。 如 图 11-3 所 示 。 
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Secondary 总 线 


图 11-3 PCI 总 线 中 死 锁 实 例 2 


PCI 桥 和 A 与 PCI 设 备 B 的 工作 流程 如 下 所 示 。 

(1) 首先 PCI 设备 B 发 出 的 存储 器 读 请 求 已 经 从 存储 器 中 获得 数据 ，HOST 主 桥 将 这 个 
存储 器 读 请 求 转换 为 存储 器 读 完 成 。 当 这 个 存储 器 读 完成 穿越 PCI 桥 时 ， 要 求 刷 新 PCI 桥 中 
的 Posted 写 请 求 (从 Primary 总 线 到 Secondary 总 线 的 Posted 写 请 求 )。 因 此 PCI 桥 首先 需要 
重 试 来 自 PCI 设备 的 读 完成 ， 然 后 将 存储 在 PCI 桥 中 的 这 个 Posted 写 请 求 刷新 出 去 ， 详 细 原 
见 第 11.3.1 节 。 

(2) 如 果 这 个 Posted 写 请 求 的 目的 设备 恰好 是 需要 从 存储 器 读 取 数据 的 PCI 设备 ， 此 时 
将 可 能 发 生死 锁 。 假 设 在 PCI 桥 A 暂 存 的 Posted 写 的 目的 地 恰好 为 PCI 设备 B。 

(3) PCI 设备 B 发 现 有 发 向 自己 的 Posted 写 请 求 时 ， 并 不 接收 这 个 请 求 ， 而 是 使 用 重 试 
周期 拒绝 这 个 写 请 求 ， 因 为 这 个 PCI 设备 希望 从 存储 器 读 取 完 数据 后 ， 才 能 接收 这 个 写 
请 求 。 

(4) 此 时 在 PCI 桥 A 中 暂 存 的 Posted 写 无 法 完成 ， 同 时 PCI 设备 B 的 读 完成 请 求 也 无 
法 穿越 PCI 桥 A， 此 时 将 产生 死 锁 。 

产生 这 个 死 锁 的 原因 是 PCI 设备 B 需要 完成 存储 器 读 之 后 才能 接收 Posted 存储 器 写 ， 
如 果 PCI 设备 B 可 以 先 接 收 Posted 存储 器 写 ， 之 后 再 进行 存储 器 读 完成 请 求 ， 这 个 死 锁 就 
可 以 避免 。 产 生 该 死 锁 的 原因 与 PCI 总 线 的 序 相 关 ， 合 理 地 安排 这 些 总 线 事务 的 访问 序 将 可 
以 避免 这 类 死 锁 ， 下 文 将 详细 介绍 PCI 总 线 的 序 。 

在 PCI 总 线 中 ， 如 果 没 有 合适 地 处 理 序 的 问题 ， 将 产生 多 种 类 型 的 死 锁 。 本 节 所 讲述 的 
仅 是 其 中 一 个 较为 简单 的 实例 。 下 文 将 继续 介绍 有 关 PCI 总 线 序 引发 的 死 锁 问题 。PCI 总 线 
通过 安排 访问 顺序 ， 可 以 合理 地 解决 这 类 死 锁 问题 。 


11.3 PCI 总 线 的 序 


PCI 总 线 为 满足 生产 /消费 者 模型 的 正确 运转 ,设置 了 许多 与 “ 序 ” 相 关 的 规则 。 只 要 
PCI 设备 满足 这 些 序 ， 那 么 无 论 数据 缓冲 、Flag 和 Status 位 在 PCI 总 线 的 什么 位 置 ， 都 可 以 
保证 生产 /消费 者 模型 的 正常 运转 。 


11.3.1 PCI 总 线 序 的 通用 规则 


PCI 总 线 在 进行 数据 传递 时 规定 了 一 些 规则 。 

(1) PCI 总 线 仅 文 持 Posted 存储 需 写 总 线 事 务 ， 而 配置 和 IO 写 总 线 事务 只 能 使 用 
“Delayed” 总线 写 事务 实现 。 

(2) Posted 存储 器 写 总 线 事务 需要 按 序 完 成 。PCI 桥 必须 按照 “先进 先 出 ”的 原则 ， 处 
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理 Posted 存储 器 写 总 线 事务 。 在 图 11-1 所 示 的 实例 中 ， 如 果 Flag 位 在 PCI 总 线 0 上 时 ， 生 
产 者 需要 通过 PCI 桥 传递 数据 ， 并 将 Flag 位 置 1， 这 两 个 操作 都 需要 使 用 Posted 存储 器 写 总 
线 事务 。 如 果 PCI 不 遵循 “先进 先 出 ”的 原则 ， 有 可 能 发 生 Flag 位 已 经 置 1， 而 数据 尚未 完 
全 到 达 数 据 缓冲 ， 从 而 引发 数据 完整 性 问题 。 

(3) 双方 向 的 数据 写 没有 序 的 关系 。 如 图 11-1 所 示 ， 生 产 者 通过 PCI 桥 向 数据 缓冲 写 
人 和 数据， 与 消费 者 通过 PCI 桥 更 新 Status 状态 位 没有 序 的 关系 。PCI 桥 会 为 双方 向 的 数据 传 
递 设 置 独立 的 缓冲 ， 两 者 间 的 数据 传递 没有 序 的 要 求 。 

(4) 读 请 求 通过 PCI 桥 时 需要 进行 数据 同步 。 当 来 自任 何 主 设备 的 读 请 求 通过 PCI 桥 
时 ，PCI 桥 需要 按照 以 下 步骤 处 理 这 个 读 请 求 。 

1) 这 个 读 请 求 总 线 事务 首先 被 PCI 桥 暂 存 。 该 读 请 求 可 以 穿越 PCI 桥 ， 或 者 被 PCI 桥 
转换 为 Delayed 读 请 求 结 束 主 设备 的 请 求 ， 并 使 主 设备 择 时 重 试 这 个 读 请 求 。 

2) 在 PCI 桥 向 目标 总 线 发 起 读 请 求 之 前 ， 需 要 将 “与 这 个 读 请 求 方向 相同 的 Posted 写 
事务 刷新 出 PCI 桥 。 以 图 11-1 为 例 ， 消 费 者 在 读 取 Flag 位 时 ，PCI 桥 中 暂 存 的 “从 PCI 总 
线 0 到 PCI 总 线 1” 的 Posted 写 总 线 事务 都 将 刷新 到 PCI 总 线 1 中 。 该 操作 可 以 保证 主 设备 
可 以 从 目标 设备 获得 最 新 的 Flag 信息 ， 因 为 “和 读 请 求 同 方向 ”的 写 操作 都 从 PCI 桥 中 刷 
新 出 去 。 

3) PCI 桥 从 目标 总 线 上 获得 数据 ， 因 为 在 读 取 数 据 之 前 ， 已 经 将 Posted 写 事务 刷新 出 
PCI 桥 ， 因 此 这 个 读 操 作 可 以 获得 最 新 的 数据 ， 从 而 保证 了 数据 访问 的 一 致 性 。 

4) PCI 桥 将 “与 这 个 读 完成 方向 相同 的 ”Posted 写 事 务 刷新 出 PCI 桥 。 以 图 11-1 为 
例 ， 将 Posted 写 事 务 从 桥 片 刷新 到 PCI 总 线 0， 此 时 主 设备 获得 Flag 信息 后 ， 可 以 保证 所 有 
的 数据 已 经 到 达 数 据 缓冲 ， 因 为 “和 读 完 成 同方 向 的 写 操作 都 从 PCI 桥 中 刷新 出 去 。 

5) 当主 设备 再 次 发 出 这 个 读 请 求 时 ，PCI 桥 将 传送 在 数据 缓冲 中 的 数据 。 

(5) Posted 写 总 线 事务 可 以 穿越 Non- Posted 总 线 事 务 。PCI 桥 在 等 待 其 他 Non-Posted 总 
线 事务 完成 时 ， 能 够 接收 Posted 写 总 线 事 务 ， 如 果 PCI 桥 不 这 样 做 ， 将 可 能 引发 死 锁 ， 如 图 
11-3 所 示 。 这 里 有 两 个 例外 ， 一 个 是 PCI 桥 的 Posted 写 数据 缓冲 满 时 ，PCI 桥 可 以 暂时 不 
接收 这 个 Posted 写 总 线 事务 ; 另外 一 个 是 PCI 桥 正 在 处 理 一 个 “Locked” 总 线 操作 时 ， 也 可 
以 不 接收 Posted 写 总 线 事务 。 


11.3.2 ”Delayed 总 线 事务 的 传送 规则 


PCI 总 线 规定 在 主 设备 置 FRAME# 信 号 有 效 后 的 16 个 时 钟 周期 之 内 ， 目 标 设 备 需要 置 
TRDY# 有 效 ， 和 否则 PCI 总 线 将 出 现 天 折 现 象 ， 因 此 如 果 一 个 PCI 主 设备 需要 使 用 Non-Posted 
总 线 事务 ， 通 过 多 级 PCI 桥 访问 最 终 的 目的 设备 时 ， 可 以 使 用 Delayed 总 线 事务 。 此 时 PCI 
桥 首 先 Retry 当前 Non-Posted 总 线 事务 ， 并 将 其 转换 为 Delayed 总 线 事务 。 该 Non-Posted 总 
线 事 务 的 发 起 者 需要 择 时 重 试 该 总 线 事务 ， 而 PCI 桥 将 这 个 Delayed 总 线 事务 暂 存 。 

在 处 理 Delayed 总 线 事务 时 ，PCI 桥 可 以 每 次 只 处 理 一 个 Delayed 总 线 事务 ， 当 下 一 个 
Delayed 总 线 事务 到 达 时 ，PCI 桥 可 以 直接 拒绝 此 Delayed 总 线 请 求 事务 ; 或 者 在 PCI 桥 中 设 
置 一 个 队列 ， 依 次 将 Delayed 总 线 请 求 事务 保存 在 这 个 队列 中 ， 当 这 个 队列 满 时 ， 再 拒绝 下 
一 个 Delayed 总 线 事务 。 使 用 Delayed 总 线 请 求 事务 进行 数据 传送 时 ， 需 要 遵循 以 下 规则 。 

(1) 只 有 Non-Posted 总 线 事务 才能 使 用 Delayed 总 线 事务 。 
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(2) 主 设备 访问 目标 设备 时 ， 如 果 被 PCI 桥 使 用 重 试 周期 暂时 中 断 时 ， 主 设备 必须 择 时 
重新 访问 这 个 目标 设备 ， 因 为 PCI 桥 将 使 用 Delayed 总 线 请 求 事务 继续 进行 数据 访问 ，PCI 
桥 获 得 这 个 数据 后 ， 主 设备 再 从 PCI 桥 中 获得 这 个 数据 。 

(3) 如 果 一 个 Delayed 总 线 请 求 事务 被 要 求 重 试 ， 发 起 这 个 Delayed 总 线 读 请 求 事务 的 
设备 需要 不 断 地 择 时 重 发 这 个 数据 访问 ， 直 到 完成 这 个 数据 访问 为 止 。 在 Delayed 总 线 请 求 
事务 没有 到 达 最 终 的 设备 之 前 ， 仪 是 一 个 数据 请 求 ， 可 以 随时 被 丢弃 。 而 这 些 重 试 操 作 极 大 
浪费 了 PCI 总 线 的 带宽 ， 这 也 是 Delayed 总 线 事务 的 缺点 。 

(4) 当 Delayed 总 线 请 求 事务 成 功 到 达 目 的 总 线 后 ， 这 个 Delayed 总 线 请 求 事务 将 被 转 
换 为 Delayed 总 线 完成 事务 。 此 时 这 个 Delayed 总 线 完成 事务 除了 在 以 下 两 种 情况 之 外 ， 不 
能 被 随便 丢弃 。 

1) 如 果 主 设备 向 一 个 可 以 预 取 的 存储 器 空间 进行 读 操作 时 ， 产 生 的 Delayed 总 线 完 成 事 
务 可 以 被 丢 奔 。 因 为 对 可 以 预 取 的 存储 需 空 间 进 行 多 次 读 操作 ， 都 不 会 产生 任何 副作用 。 

2) 当主 设备 在 22 个 时 钟 周期 后 ， 依 然 没 有 进行 总 线 重 试 时 ，PCI 桥 可 以 丢弃 这 个 De- 
layed 总 线 完 成 事务 ， 而 且 需 要 通过 某 种 机 制 通知 主 设备 这 个 Delayed 总 线 完 成 事务 已 经 被 丢 
弃 ， 这 种 情况 极 少 发 生 。 

(5) PCI 桥 在 处 理 Delayed 总 线 事务 时 ， 必 须 能 够 接收 来 自 这 个 桥 同 一 侧 的 Posted 存储 
需 写 请 求 。 

(6) Delayed 数据 请 求 和 Delayed 数据 完成 之 间 没 有 序 的 要 求 。 

(7) Delayed 数据 完成 不 可 以 超越 之 前 的 Posted 写 总 线 事 务 。 

(8) 如 果 主 设备 需要 “Delayed 读 总 线 事务 A” 一 定 要 在 “Delayed 读 总 线 事务 B” 之 前 
结束 ， 唯 一 的 方法 就 是 在 Delayed 读 总 线 事务 A 完全 结束 后 ， 再 启动 Delayed 读 总 线 事 务 B。 
因为 Delayed 读 总 线 事 务 A 有 可 能 被 设备 使 用 重 试 周期 结束 。 因 此 尽管 PCI 设备 先 发 送 De- 
layed 读 总 线 请 求 A， 仍然 有 可 能 在 后 发 送 的 Delayed 读 总 线 请 求 B 完全 结束 后 ， 才 被 处 理 。 


11.3.3 PCI 总 线 事务 通过 PCI 桥 的 顺序 


在 PCI 桥 中 ,设置 了 许多 缓冲 暂 存 各 类 总 线 事务 ， 包 括 Posted 存储 带 写 (PMW)，De- 
layed 读 请 求 (DRR) ，Delayed 读 完 成 (DRC) ，Delayed 写 请 求 ? (DWR) 和 Delayed 写 完 
成 (DWC)。 这 些 不 同 种 类 的 总 线 事务 在 同一 方向 穿越 PCI 桥 时 ， 无论 是 从 上 游 总 线 到 下 游 
总 线 还 是 从 下 游 总 线 到 上 游 总 线 穿越 PCI 桥 时 ， 都 必须 遵循 一 定 的 顺序 ， 以 满足 生产 /消费 
者 模型 在 PCI 总 线 上 的 正确 运行 。 有关 PCI 桥 的 序 如 表 11-4 所 示 。 在 该 表 中 出 现 的 
“Yes”、“No” 和 “Yes/No” 的 定义 如 下 所 示 。 
e“Yes/No” 表 示 Row 和 Column 之 间 的 总 线 事务 没有 序 的 关系 ， 如 DWC (Row EE) 总 
线 事务 和 PMW (Colunm 2) 总 线 事务 在 通过 PCI 桥 时 没有 先后 顺序 。 

e“Yes” 表 示 Row 中 的 总 线 事务 先 于 Column 中 的 总 线 事务 通过 PCI 桥 。 比 如 PMW 总 
线 事务 可 以 超越 DRR 和 DWR 总 线 事务 。 

e“No” 表 示 Row 中 的 总 线 事务 后 于 Column 中 的 总 线 事务 通过 PCI 桥 。 如 PMW 总 线 事 
务 不 能 超越 之 前 的 PMW 总 线 事务 。 


WO 和 配置 写 总 线 事务 使 用 DWR。 
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。 表 中 的 “Yes” 和 “No” 的 上 标 对 应 一 个 序 的 规则 ， 例 如 No 中 的 上 标 1 对 应 规则 1 。 


这 些 规 则 将 在 下 文 陆续 介绍 。 
表 11-4 PCI 桥 使 用 的 数据 访问 顺序 
Row pass Col? Ww DRR , Os DRC . DWC 
Column Column Column Column Column 
PMW (Row A) No! Yes’ Yes’ Yes” Yes” 
DRR (Row B) No? Yes/No 
DWR (Row C) No? 
DRC (Row D) No4 Yes5 Yes/No 
DWC (Row E) Yes/ No 


1，Posted 存储 器 写 通 过 PCI 桥 时 需要 按 序 完成 

Posted 存储 器 写 通过 PCI 桥 时 需要 遵循 “先进 先 出 ”的 原则 ， 否 则 将 会 引发 数据 完整 性 
问题 。 这 个 要 求 对 满足 生产 /消费 者 模型 的 正常 运行 至 关 重 要 。 

对 于 生产 者 ， 置 Flag 位 为 1 和 将 数据 写 入 数据 缓冲 都 使 用 Posted 存储 器 写 总 线 事务 。 
如 果 Flag 位 和 数据 缓冲 在 同一 条 PCI 总 线 上 时 ，Posted 存储 髓 写 不 按 序 到 达 ， 可 能 导致 Flag 
位 被 生产 者 置 1， 而 数据 缓冲 并 没有 收 到 数据 ， 从 而 在 消费 者 使 用 数据 缓冲 中 的 数据 时 ， 可 
能 会 得 到 无 效 数据 。 

2. DRR 不 能 超越 PMW 

PCI 桥 首先 将 DRR 保存 在 缓冲 区 中 ， 之 后 PCI 桥 将 缓存 在 该 桥 中 的 所 有 PMW 都 刷新 出 
去 后 ， 才 能 执行 这 个 DRR， 即 “ 先 写 后 读 ”， 和 否则 读 入 的 数据 有 可 能 不 是 最 新 的 。 系 统 软件 
可 以 使 用 这 一 功能 实现 “ 读 刷 新 ”操作 。PCIe 总 线 还 支持 读 “0 字 节 ”操作 ， 其 主要 目的 
就 是 完成 这 种 “ 读 刷 新 ”操作 。 

3，DWR 不 能 超越 PMW 

DWR 首先 在 PCI 桥 中 锁 存 ， 之 后 PCI 桥 将 缓存 的 所 有 PMW 发 送出 去 后 ， 才 能 执行 这 个 
DWR。 在 生产 /消费 者 模型 中 ， 生 产 者 除了 可 以 使 用 PMW 总 线 事务 设置 Flag 位 之 外 ， 也 可 
以 使 用 DWR 总 线 事务 设置 Flag 状态 位 (Flag 状态 位 可 能 存放 在 IO 地 址 空间 中 ， 而 且 假 设 
在 图 11-1 中 ，Flag 位 和 数据 缓冲 都 在 PCI 总 线 0 上 )。 

此 时 DWR 不 能 超越 PMW ， 因 为 生产 者 必须 将 所 有 数据 都 写 入 数据 缓冲 后 ， 才 能 设置 
Flag 状态 位 。 如 果 DWR 可 以 超越 PMW， 则 会 出 现 生产 者 没有 将 数据 完全 写 入 到 数据 缓冲 
中 ， 而 Flag 位 已 经 置 1， 从 而 可 能 引发 数据 完整 性 问题 。 规 则 2、3 与 规则 5 直接 相关 ， 
DRR、DWR 和 不 能 超越 PMW ， 也 意味 着 PMW 需要 超越 DRR 和 DWR。 

4. DRC 不 能 超越 PMW 

PCI 总 线 使 用 DRR 总 线 事务 处 理 存储 器 和 I/O 读 请 求 ， 而 该 总 线 事务 在 获得 所 读 取 的 
数据 和 完成 状态 后 ， 将 被 转化 为 DRC 总 线 事务 ， 并 在 主 设备 重新 发 起 读 操 作 时 ， 将 数据 传 
递 给 主 设备 。DRC 要 求 数据 在 穿越 PCI 桥 传 递 给 主 设备 之 前 ，PCI 桥 将 缓存 的 PMW 总 线 事 
务 刷新 出 去 。 

以 图 11-1 为 例 ， 如 果 消 费 者 使 用 DRC 总 线 事务 获得 Flag 位 ， 当 Flag 位 为 1 时， 必须 
要 求生 产 者 将 数据 全 部 写 人 数据 缓冲 中 。 如 果 DRC 可 以 超越 PMW ， 则 可 能 出 现 消费 者 通过 

287 


DRC 获得 Flag 位 ， 而 且 Flag 位 为 1 时， 生产 考 提供 的 数据 仍 在 PCI 桥 中 的 情况 。 因 为 这 些 
数据 需要 通过 PCI 桥 才 能 达到 缓冲 ， 而 Flag 位 与 生产 者 在 同一 条 总 线 上 ， 可 以 立即 生效 。 

当 消费 者 发 现 Flag 位 为 1 时 ,会 立即 读 取 数 据 缓冲 ， 在 图 11-1 中 ， 如 果 这 个 DRC 请 
求 能 够 超越 PMW， 那 么 PCI 桥 首 先 将 Flag 位 已 经 为 1 的 消息 传递 给 消费 者 ， 之 后 消费 者 开 
始 从 缓冲 中 读 取 数据 ， 而 这 时 生产 者 使 用 PMW 方式 写 人 缓冲 的 数据 还 可 能 在 PCI 桥 中 ， 从 
而 造成 数据 完整 性 的 问题 。 

在 PCI 总 线 中 ， 解 决 该 问题 的 方法 是 DRC 不 能 超越 PMW， 这 样 消 费 者 在 收 到 Flag 位 为 
1 的 信息 之 前 ， 在 PCI 桥 中 的 PMW 一 定 被 DRC 刷新 到 PCI 总 线 0 中 ， 从 而 不 会 引发 数据 完 
整 性 问题 。 规 则 4 与 规则 7 之 间 相 关 ，DRC 不 能 超越 PMW ， 也 意味 着 PMW 需要 超越 DRC。 

在 PCI 总线 中 ，DWC 与 PMW 之 间 没 有 序 的 要 求 。 因 为 DWC 中 并 不 包含 有 效 数 据 ， 仅 
是 通知 发 送 DWR 的 设备 ， 该 写 请 求 已 经 结束 。DWC 不 在 生产 /消费 者 模型 中 出 现 。 

5， PMW 可 以 超越 DRR 和 DWR 

PCI 总 线 为 了 避免 死 锁 ， 可 以 使 刚 进 入 PCI 桥 的 PMW 总 线 事务 ， 超 越 已 经 在 PCI 桥 中 
暂 存 的 DRR 和 DWR 总 线 事务 ， 即 PMW 总 线 事 务 可 以 提前 执行 。 如 果 PMW 不 能 超越 DRR 
和 DWR， 则 会 产生 死 锁 。 实 际 上 因为 规则 2 和 3 的 原因 ， 规 则 5 的 引入 是 顺利 成 章 的 。 

值得 注意 的 是 该 规则 的 引入 还 解决 了 在 PCI 总 线 中 使 用 的 不 同 版 本 的 PCI 桥 的 问题 ， 本 
小 节 对 这 种 情况 不 做 深入 讨论 。 

6.，Delayed 读 写 完成 可 以 超越 Delayed 读 写 请 求 

如 果 DWC 和 DRC 总 线 事务 到 达 PCI 主 设备 时 ， 这 个 主 设备 正在 等 待 DWR 和 DRR 总 线 事 
务 完成 ， DWC 和 DRC 必须 可 以 优先 到 达 PCI 主 设备 ， 和 否则 将 引发 死 锁 ， 下 文 以 图 11-4 所 示 
的 实例 说 明 这 种 死 锁 。 

我 们 考虑 PCI 主 设备 X 和 YY 通过 PCI 桥 A 和 了 B 进行 数据 读 写 ， 其 步骤 如 下 。 

(1) PCI 主 设备 X 和 YY 同时 发 起 一 个 Non-Posted 读 写 请 求 。 

(2) PCI 桥 A 和 B 将 这 个 Non-Posted 总 线 读 写 请 求 转换 为 Delayed 读 写 请 求 ， 并 暂 存在 
桥 内 缓冲 中 ， 分 别 为 DRR-X 和 DRR-Y， 同 时 使 用 重 试 周期 结束 PCI 主 设备 X 和 YY 的 读 写 请 
求 。 之 后 PCI 主 设备 X 和 YY 将 定时 重 发 这 个 Non-Posted 总 线 读 写 请 求 ， 直 到 完成 本 次 总 线 
读 写 请 求 。 

(3) PCI 桥 A 和 B 依 次 获得 PCI 总 线 1 的 使 用 权 ， 并 将 DRR-X 和 DRR-Y 请 求 发 向 对 
方 。PCI 桥 B 和 A 将 来 自 对 方 的 Delayed 读 写 请 求 锁 存在 桥 内 缓冲 中 ， 并 发 起 重 试 周期 结束 
来 自 PCI 桥 A 和 B 的 Delayed 读 写 请 求 。 

(4) PCI 桥 A 和 B 将 定时 重 发 这 个 Delayed 总 线 读 写 请 求 ， 直 到 获得 Delayed 总 线 读 写 
完成 信息 。 

(5) PCI 桥 A 和 B 将 分 别 获 得 PCI 总 线 0 和 2 的 使 用 权 , 将 DRR-Y 和 DRR-X 请 求 发 送 
到 最 终 PCI 设备 。 假 设 PCI 桥 A 获得 PCI 总 线 0 的 使 用 权 ， 并 完成 了 PCI 主 设备 Y 发 起 的 
DRR-Y 请 求 ， 此 时 PCI 桥 A 将 从 PCI 主 设备 X 中 得 到 Delayed 读 写 完成 信息 ， 并 将 DRR-Y 请 
求 转换 为 DRC-Y 请 求 ， 并 将 其 锁 存 在 PCI 桥 A 的 缓存 中 。 等 待 PCI 桥 B 对 PCI 桥 A 进行 重 试 。 

(6) 如 果 此 时 PCI 桥 A 在 没有 完成 DRR-X 请 求 (该 请 求 是 发 向 PCI 主 设备 Y) 时 , 不 
能 接收 DRC-Y 请 求 将 引发 死 锁 。 因 为 DRC-X 请 求 也 会 因为 相同 的 原因 不 会 被 PCI B 桥接 
收 ， 从 而 PCI 桥 A 无 法 完成 DRR-X 请 求 。 
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主 设备 X 完成 DRR 或 者 DWR， 主 设备 X 发送 IO 写 或 者 存储 器 


并 将 其 转化 为 DRC 或 者 DWC 读 请 求 
ee PCI 桥 A 转发 DRR 或 者 DWR， PCI 桥 A 转发 DRR 或 者 DWR,， 
| 同时 要 求 PCI 桥 B 进行 重 试 同时 要 求 PCI 主 设备 X 进行 重 试 
PCI 桥 B 转发 DRR 或 者 DWR， PCI 桥 B 转发 DRR 或 者 DWR， 1 
同时 要 求 PCI 主 设备 Y 进行 重 试 同时 要 求 PCI 桥 A 进行 重 试 oe 
主 设备 Y 完成 DRR 或 者 DWR， 


主 设备 Y 发 送 IO 写 或 者 存储 器 L 
读 请 求 并 将 其 转化 为 DRC 或 者 DWC 


图 11-4 DWC/DRC 不 能 超越 DRRADWR 而 造成 死 锁 


如 果 Delayed 总 线 完成 可 以 超越 Delayed 请 求 时 ， 将 有 效 地 避免 这 类 死 锁 。 因 为 Delayed 
总 线 完成 是 发 生 在 Delayed 总 线 请 求 之 后 的 事件 ， 这 两 个 请 求 有 因果 关系 ,希望 读者 认真 体 
会 规则 6。 

7. PMW 总 线 事务 可 以 超越 DRC/DWC 总 线 事务 

PCI 总 线 规定 PMW 总 线 必须 可 以 超越 之 前 已 经 在 PCI 桥 中 暂 存 的 DRCZDWC 总 线 事务 ， 
以 避免 死 锁 。 引 入 该 规则 的 主要 原因 是 在 PCI 总 线 层 次 结构 中 可 能 存在 不 同 版 本 的 PCI 桥 ， 
它们 的 缓冲 管理 策略 并 不 一 致 ， 从 而 有 可 能 造成 死 锁 。 本 节 对 这 种 情况 不 做 进一步 描述 。 


11.3.4 LOCK，Delayed 和 Posted 总 线 事 务 间 的 关系 


PCI 桥 可 以 将 一 个 LOCK 总 线 事务 从 上 游 传 递 到 下 游 ， 但 是 不 能 将 一 个 LOCK 总 线 事务 
从 下 游 传递 到 上 游 。PCI 桥 将 下 游 传递 到 上 游 的 LOCK 总 线 事务 转换 为 普通 的 总 线 事务 ， 即 
去 掉 这 个 LOCK 标志 。 

当 PCI 桥 从 一 个 主 设备 接收 一 个 LOCK 总 线 事务 之 后 ， 将 这 个 总 线 事务 发 送 到 下 游 总 线 
的 目标 设备 。 如 果 该 LOCK 总 线 事务 是 Non-Posted 总 线 事务 ， 此 时 PCI 桥 并 不 能 立即 完成 这 
个 LOCK 总 线 事务 ， 因 为 PCI 桥 还 需要 将 “Non-Posted 总 线 请 求 ” 对 应 的 总 线 完成 信息 传递 
给 发 起 者 之 后 ，LOCK 总 线 事务 才能 最 终 完 成 。 

在 PCI 桥 没 有 将 LOCK 总 线 完成 传递 给 发 起 者 之 前 这 段 时 间 里 ，PCI 桥 仅 接收 这 个 发 起 
LOCK 总 线 事务 的 主 设备 的 总 线 请 求 ， 而 重 试 其 他 主 设备 发 出 的 总 线 事务 。 该 PCI 桥 不 会 使 
用 Delayed 总 线 事务 接收 其 他 Non-Posted 总 线 事 务 ， 也 不 会 暂 存 这 些 总 线 事 务 。 

一 个 LOCK 总 线 事务 从 PCI 桥 的 上 游 到 达 PCI 桥 ， 并 在 PCI 桥 将 这 个 LOCK 总 线 事务 传 
递 到 下 游 总 线 这 段 时 间 里 ，PCI 桥 需 要 进行 以 下 处 理 。 

(1) 将 所 有 同方 向 的 PMW 总 线 事务 刷新 到 下 游 总 线 。 

(2) 对 于 Delayed 总 线 事务 ，PCI 桥 需要 进行 特别 处 理 。 丢 弃 所 有 暂 存 在 PCI 桥 中 的 De- 
layed 总 线 事务 ; 允许 LOCK 总 线 事务 超越 任何 读 写 请 求 。 或 者 完成 所 有 Delayed 读 写 请 求 ， 
再 将 LOCK 总 线 事务 发 送 给 下 游 总 线 。 

在 PCI 桥 的 下 游 总 线 接收 LOCK 总 线 请 求 之 前 ，PCI 桥 仍然 可 以 暂 存 来 自 下 游 总 线 的 数 
据 请 求 ， 而 在 下 游 总 线 接收 LOCK 总 线 请 求 之 后 ，PCI 桥 不 能 接收 任何 来 自 下 游 总 线 的 数据 
请 求 ， 直 到 发 起 LOCK 总 线 请 求 的 主 设备 解锁 。 

在 一 个 最 简单 的 PCI 桥 的 实现 中 ,一 个 LOCK 总 线 事务 在 PCI 桥 的 下 游 总 线 建立 完毕 
后 ，PCI 桥 不 能 接收 上 /下 游 总 线 的 数据 请 求 ， 除 了 来 自发 起 LOCK 总 线 事务 的 PCI 主 设备 
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的 数据 请 求 。 而 且 PCI 桥 必须 完成 发 向 上 游 总 线 的 PMIW，DRC 和 DWC 总 线 请 求 。 采 用 这 
个 规则 可 以 保证 使 用 LOCK 总 线 事务 时 不 会 引发 死 锁 。 但 是 使 用 这 些 规 则 将 极 大 影响 PCI 总 
线 的 传送 性 能 ， 为 此 在 处 理 器 系统 的 设计 中 ， 最 好 不 使 用 LOCK 总 线 事务 。 


11.4 PCle 总 线 的 序 


PCIe 总 线 的 序 基 于 PCI 总 线 的 序 ， 并 进行 了 许多 扩展 。 在 PCI 总 线 上 ， 仅 能 使 用 强 序 
传送 规则 ， 而 PCIe 总 线 支持 Relaxed ordering 方式 进行 数据 传递 ， 使 用 这 种 方法 时 ， 不 同 的 
TLP 在 通过 RC 和 Switch 到 达 EP 时 ， 不 一 定 遵循 PCI 总 线 的 强 序 原则 ， 这 也 意味 着 先 发 出 
去 的 TLP 并 不 一 定 能 够 最 先 到 达 目 的 地 。PCIe 总 线 使 用 Relaxed ordering 数据 传送 方式 ， 在 
一 定 程 度 上 可 以 提高 数据 传送 效率 。 

在 TLP 的 Att 字段 中 有 一 个 Relaxed Ordering 位 ， 表 示 该 TLP 是 否 支 持 PCle 总 线 的 Re- 
laxed Ordering 方式 ,但 是 TLP 是 否 可 以 使 用 Relaxed Ordering 还 与 这 个 TLP 经 过 的 设备 有 
关 。 如 果 一 个 TLP 经 过 的 Switch 不 支持 PClIe 的 Relaxed Ordering 数据 传送 方式 ， 通 过 这 个 
Switch 的 TLP 报 文 依然 需要 使 用 强 序 方式 通过 这 个 Switch。 

系统 软件 可 以 通过 使 能 Device Control 寄存 需 中 的 Enable Relaxed ordering 位 ， 来 禁止 或 
者 使 能 TLP 报 文 的 Relaxed ordering 功能 ，Device Control 寄存 髓 在 PCle 设备 的 PCI Express 
Capability 结构 中 。 目 前 大 多 数 PCIe 设备 不 支持 Relaxed ordering 方式 进行 TLP 的 传递 。 

PCIe 总 线 的 Relaxed Ordering 数据 传送 方式 是 有 条 件 的 ，PCIe 总 线 的 每 一 个 TLP 报 文 都 
有 一 个 唯一 的 TC， 而 这 个 TC 又 和 一 个 唯一 的 VC 对 应 ? 。Relaxed Ordering 与 报 文 使 用 的 VC 
相关 。VC 相同 的 TLP 间 的 传送 遵循 Relaxed Ordering 的 原则 ， 而 VC 不 同 的 TLP 间 没 有 序 的 
要 求 。 在 PCIe 总 线 中 ， 所 有 数据 传送 类 型 ， 如 存储 句 、LLO 、 配 置 和 Message 总 线 事 务 都 需 
要 遵循 规定 的 传送 顺序 。 


11.4.1 TLP 传送 的 序 


VC 不 同 的 TLP 间 没 有 序 的 要 求 ， 在 PCIe 总 
送 顺 序 ， 其 关系 如 表 11-5 所 示 。 


线 中 ,“ 序 ”是 指 VC 相同 的 TLP 之 间 的 传 


表 11-5 PCle 总 线 的 序 


Posted Request Read Request NPR with Data Completion 
F 7 
了 Col 2 Col 3 Col 4 Col 5 
Posted Request a Y/N 
Row A Ws b. Yes 
Read Request 
Row B a. No 
Y/N 
NPR with Data b. Y/N 
RowC 
Completion y a Y/N 
RowD 一 b. No 


名 不 同 的 TC 可 能 会 共 


TC2 可 以 都 可 以 使 月 
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个 VC， 而 一 个 TC 只 能 使 月 
有 目 VC1， 而 TC1 不 能 在 使 月 


崩 VC0 的 同时 还 使 


VC1。 


上 一 个 VC。TC 和 VC 的 对 应 关系 是 多 对 一 的 关系 。 如 TCl 和 


各 个 表 项 的 含义 如 下 。 

e Posted Request 由 存储 絮 写 请 求 TLP 或 者 Message 使 用 。 

e Read Request 由 IIO、 配 置 和 存储 器 读 请 求 使 用 。 

e NPR (Non-Posted Request) with Data 由 IO 、 配 置 写 和 原子 操作 使 用 。 

e a. 表示 TLP 的 RO 位 为 0， 即 不 使 能 Relaxed Order 的 情况 。 

e b. 表示 TLP 的 RO 位 为 1 或 者 IDO 位 为 1， 即 使 能 Relaxed Ordering 或 者 使 能 ID-Based 

Ordering 的 情况 。 不 同 的 规则 使 用 a，b 子规 则 略 有 差异 。 

e Yes 表示 Row 中 的 TLP 必须 能 够 穿越 Col 中 的 TLP。 

e Y/N 表示 Row 中 的 TLP 和 Col 中 的 TLP 没有 序 的 关系 。 

。 No 表示 Row 中 的 TLP 一 定 不 能 穿越 Col 中 的 TLP。 

下 文 出 现 的 XY ab 中 ,，X 与 行 对 应 ， 其 值 为 A~D，Y 与 列 对 应 ， 其 值 为 2 ~5。 如 A2 
a 表示 “Posted Request” 在 RO 位 为 0 的 情况 下 是 否 能 够 超越 “Posted Request”。 

通过 表 11-5 与 表 11-4 的 比较 ， 可 以 发 现在 RO 位 为 0 时 ( 即 不 使 用 Relax Ordering)， 
PCle 总 线 的 序 与 PCI 的 序 基本 兼容 。 但 是 因为 在 一 个 TLP 中 有 时 RO 位 和 IDO 位 不 为 0， 
此 PCIe 总 线 的 序 需要 根据 a 和 b 两 种 情况 分 别 进行 讨论 。 

1. A2 

A2 需要 分 为 两 种 情况 讨论 ， 其 中 a 对 应 TLP 的 RO 和 IDO 位 都 为 0 情况 ， 而 b 对 应 TLP 
的 RO 或 者 1DO 位 为 1 的 情况 。 

A2 a 的 值 为 No， 表示 Posted Request 报 文 不 能 超越 之 前 的 Posted Request 报 文 ， 这 与 
PCI 总 线 中 PMW 不 能 超越 之 前 的 PMW 要 求 相 同 。PCI 总 线 的 PMW 与 PCIe 的 Posted Request 
报 文 基本 一 致 ， 存 储 器 写 和 Message 使 用 这 类 报 文 。 

A2 b 的 值 为 YAN， 该 规则 需要 分 为 两 种 情况 进行 讨论 ，RO 位 为 1 或 者 IDO 位 为 1。 当 
RO 位 为 1 时 ， 该 Posted Request 报 文 可 以 超越 之 前 的 Posted Request 报 文 。 在 设计 中 应 用 该 
规则 是 十 分 危险 的 ， 该 规则 也 意味 着 “ 写 ” 可 以 超越 “ 写 ”。 

如 在 第 11.1.1 节 描 述 的 生产 /消费 者 模型 中 ， 生 产 者 首先 将 数据 写 入 数据 缓冲 ， 人 然后 将 
Flag 位 置 1。 如 果 “ 将 Flag 位 置 1” 的 写 操作 可 以 超越 “ 写 入 数据 缓冲 ”的 写 操 作 ， 那 么 消 
费 者 可 能 会 从 无 效 的 数据 缓冲 中 读 取 数据 ， 从 而 出 现 错误 。 

在 Switch 和 支持 Peer-to-Peer 传送 的 RC 中 ， 设 置 了 一 个 寄存 器 位 “No RO-enabled PR- 
PR Passing”2 ， 当 该 位 为 1 时 ， 当 TLP 通过 这 些 Switch 和 RC 时 ，Posted Request 报 文 不 能 
越 之 前 的 Posted Request 报 文 ， 即 便 这 些 TLP 的 RO 位 为 1。 

当 IDO 位 为 1 时 ,该 Posted Request 报 文 可 以 超越 之 前 的 Posted Request 报 文 。 使 用 该 规 
则 的 前 提 是 ， 这 两 个 Posted Request 报 文 使 用 的 Requester ID 号 不 同 ， 即 这 两 个 Posted Re- 
quest 报 文 是 由 不 同 的 PCIe 设备 发 出 的 ， 有 关 IDO 序 的 详细 说 明 见 第 11.4. 2 节 。 

2. A3 和 A4 

A3 和 A4 的 值 为 Yes， 表 示 Posted Request 报 文 可 以 超越 之 前 的 Non-Posted 读 和 写 请 求 。 
该 规则 与 PCI 总 线 的 PMW 可 以 超越 DRR 和 DWR 兼容 ， 其 主要 目的 是 避免 死 锁 。 详 见 PCI 


口 “该 位 在 Device Capabilities 2 寄存 器 中 。 
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总 线 序 的 规则 5。 

3. A5 

A5 需要 分 为 两 种 情况 讨论 ，a 适用 于 PCIe 总 线 中 的 RC 和 Switch; 而 b 适用 于 PCIe 桥 。 

AS a 的 值 为 YAN。 在 PCle 总 线 中 ，Posted Request 报 文 可 以 超越 之 前 的 完成 报 文 也 可 以 
不 超越 ， 在 这 两 种 情况 下 ， 都 不 会 造成 死 锁 。 该 规则 与 PCI 总 线 中 PMW 必须 超越 DRC 和 
DWC 不 同 (PCI 总 线 中 的 规则 7) ， 因 为 在 PCI 体系 结构 中 会 出 现 不 同 版 本 的 PCI 桥 ， 而 在 
PCIe 体系 结构 中 不 会 出 现 这 种 情况 。 

A5 b 的 值 为 Yes。 表 示 在 PCIe 桥 中 ，PCIe 总 线 向 PCI 总 线 的 方向 传递 报 文 时 ，Posted 
Request 报 文 必须 可 以 超越 完成 报 文 ， 以 避免 死 锁 。PCIe 桥 内 部 由 多 个 虚拟 PCI 桥 组 成 ， 参 
见 图 4-13 ， 因 此 PCIe 总 线 中 的 A5 b 与 PCI 总 线 中 的 规则 7 兼容 。 

4. B2, C2 

B2 需要 分 为 两 种 情况 讨论 ， 其 中 a 对 应 TLP 的 IDO 位 为 0 情况 ， 而 b 对 应 TLP 的 IDO 
位 为 1 的 情况 。 

B2 a 的 值 为 Ne， 表示 Read Request 报 文 不 能 超越 之 前 的 Posted Request 报 文 ， 这 与 PCI 
总 线 中 DRR 不 能 超越 之 前 的 PMW 要 求 相同 。PCI 总 线 的 DRR 与 PCIe 总 线 的 Read Request 
报 文 基本 一 致 ， 存 储 器 、1/O 和 配置 读 使 用 这 类 报 文 。 

B2 b 对 应 TLP 的 IDO 位 为 1 的 情况 。 当 IDO 位 为 1 时 ,该 Read Request 报 文 可 以 超越 
之 前 的 Posted Request 报 文 ， 否 则 不 能 超越 。 使 用 该 规则 的 前 提 是 ，Read Reques 报 文 和 Pos- 
ted Request 报 文 使 用 的 Requester ID 号 不 同 。 

C2 也 需要 分 为 两 种 情况 讨论 ， 其 中 a 对 应 TLP 的 IDO 位 为 0 情况 ， 而 b 对 应 TLP 的 
IDO 位 为 1 的 情况 。 其 实现 机 制 与 B2 类 似 ， 本 节 对 此 不 做 进一步 说 明 。 

5. B3, B4, C3, C4 

在 PCle 总 线 中 ，Non-Posted Request 报 文 可 以 超越 之 前 的 Non-Posted Request 报 文 ， 也 可 
以 不 进行 这 种 超越 。 该 规则 从 PCI 总 线 中 继承 而 来 ， 而 在 PCI 总线 中 DRRADWR 可 以 超越 之 
前 的 DRRADWR。PCle 设备 在 实现 中 ， 需 要 与 该 规则 兼容 。 

但 是 在 PCIe 总 线 中 ， 存 储 器 读 操 作 使 用 Split 方式 进行 传送 ， 因 此 该 规则 的 引入 为 PCIe 
设备 的 设计 带 来 了 不 小 的 麻烦 。 当 一 个 EP 进行 DMA 读 操 作 时 ， 需 要 首先 向 RC 发 送 存储 器 
读 请 求 ， 如 R1 ~ R4， 而 RC 收 到 这 些 读 请 求 时 ， 将 回 送 读 完成 TLP， 如 C1 ~ C4。 为 简便 起 
见 ， 我 们 认为 每 一 个 存储 器 读 请 求 的 大 小 为 64B， 而 读 完 成 的 大 小 也 为 64B， 而 且 不 考虑 对 
界 的 问题 ， 这 样 EP 发 送 的 存储 器 读 请 求 将 与 RC 的 读 完成 一 一 对 应 ， 我 们 假设 R1 对 应 C1， 
R2 对 应 C2， 并 以 此 类 推 R4 对 应 C4。 

EP 首先 按照 R1 ~ R4 的 顺序 发 送 这 些 存储 器 读 请 求 。 但 是 R1 ~ R4 在 通过 Switch 和 RC 
之 后 可 能 出 现 乱 序 ， 如 果 Non-Posted Request 报 文 可 以 超越 之 前 的 Non-Posted Request 报 文 ， 
RC 最 终 收 到 的 存储 需 读 请 求 可 能 是 乱 序 的 ， 如 R2,，R4,R3 和 R1， 因 此 RC 发 送 给 EP 的 读 
完成 报 文 可 能 为 C2, C4, C3 和 C1， 这 个 顺序 与 EP 发 向 RC 的 存储 器 读 请 求 的 顺序 并 不 相 
同 。 因 此 EP 必须 处 理 这 种 乱 序 ， 这 为 EP 的 设计 带 来 了 不 小 的 困难 。 

6. B5, C5 

在 PCIe 总 线 中 ，Non-Posted Request 报 文 与 之 前 的 完成 报 文 没有 序 的 要 求 。 该 规则 从 
PCI 总 线 中 继承 而 来 ， 在 PCI 总 线 中 DRRADWR 可 以 超越 之 前 的 DRCADWC， 也 可 以 不 超 
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越 。 这 些 报 文 的 传递 不 会 影响 生产 /消费 者 模型 的 正常 运行 。 
7. D2 

D2 需要 分 为 两 种 情况 进行 讨论 ， 分别 是 D2 a 和 D2 b。 

其 中 D2 a 为 No， 表示 在 PCle 总 线 中 ，CplD 报 文 不 能 超越 Posted Request 报 文 ， 该 规则 
与 PCI 总 线 中 的 规则 4 兼容 。 这 也 是 保证 生产 /消费 者 模型 正常 运行 的 必要 条 件 。 

而 D2 b 为 YVN。 如 果 TLP 的 RO 位 为 1 时 ， 该 CplD 报 文 可 以 超越 Posted Request 报 文 。 
设计 者 需要 慎重 使 用 该 规则 ， 因 为 该 规则 的 应 用 有 可 能 破坏 生产 /消费 者 模型 的 正常 运转 。 
只 有 传递 与 生产 /消费 者 模型 无 关 的 报 文 时 ， 才 能 应 用 该 规则 。 

此 外 如 果 TLP 的 IDO 位 为 1 时 , 该 CplD 报 文 可 以 超越 之 前 的 Posted Request 报 文 ， 否 
则 不 能 超越 。 使 用 该 规则 的 前 提 是 ，CplD 报 文 和 Posted Request 报 文 使 用 的 Requester ID 号 
不 同 。 值 得 注意 的 是 ，Cpl 报 文 由 I/O 或 者 配置 写 完 成 报 文 使 用 ， 该 报 文 中 不 含有 数据 ， 仅 
包含 完成 信息 。 该 报 文 的 使 用 方法 与 PCI 总 线 的 DWC 类 似 。 该 报 文 与 Posted Request 报 文 没 
有 序 的 要 求 ， 该 规则 与 PCI 总 线 的 规则 4 兼容 。 

8. D3, D4 

在 PCIe 总 线 中 ， 完 成 报 文 可 以 超越 之 前 的 Non-Posted Request 报 文 。 该 规则 从 PCI 总 线 
中 继承 而 来 ， 与 规则 6 对 应 。 该 规则 的 引入 主要 为 了 防止 死 锁 。 

9. D5 

如 果 完 成 报 文 与 之 前 的 完成 报 文 的 Transaction ID 不 同时 ， 该 报 文 可 以 超越 之 前 的 完成 
报 文 ; 如果 相 同 ， 不 能 进行 这 样 的 超越 。 

当 一 个 PCIe 设备 向 目标 设备 发 送 存 储 器 读 请 求 时 ， 目 标 设备 可 能 会 使 用 一 个 或 者 多 个 
存储 器 读 完成 报 文 将 数据 回 送 。 如 果 使 用 多 个 存储 器 读 完成 报 文 时 ， 这 些 存储 器 完成 报 文 按 
“地 址 升序 ”顺序 先后 到 达 源 设备 。 

如 果 设 备 A 需要 从 设备 B 读 取 256B2 的 数据 ， 其 访问 的 地 址 为 0x1000 -0000 ~ 0x1000 
-00FF 时 ， 设 备 A 可 以 向 设备 B 发 送 一 个 存储 器 读 请 求 TLP， 而 设备 B 将 以 64B 为 单位 向 
设备 A 发 送 存储 器 读 完 成 TLP， 这 些 完成 报 文 必须 以 C1 ~ C4 的 顺序 到 达 设 备 A，C1 ~ C4 存 
储 絮 读 完成 TLP 对 应 的 数据 区 域 如 下 。 

e Cl 与 0x1000 -0000 ~0x1000 -003F 对 应 。 

e C2 与 0x1000 -0040 ~0x1000 -007F 对 应 。 

e C3 与 0x1000 -0080 ~0x1000 -00BF 对 应 。 

e C4 与 0x1000 -00C0 ~0x1000 -00FF 对 应 。 

如 果 设 备 A 需要 从 设备 B 读 取 512B 的 数据 ， 访 问 的 地 址 为 0x1000 - 0000 ~ 0x1000 - 
01FF 时 ， 这 段 数据 区 域 大 于 大 于 设备 A 的 Max_Read_Request_Size 参数 ， 因 此 设备 A 需要 向 
设备 B 发 出 两 个 存储 器 读 请 求 ， 这 两 个 存储 器 读 请 求 使 用 两 个 不 同 的 Tag 字段 进行 区 分 ， 分 
别 为 Re 和 Rn。 假设 Ri 的 Tag 字段 为 0， 其 请 求 的 数据 区 域 为 0x1000 - 0000 ~0x1000 - 
00FF; 而 RTI1 的 Tag 字段 为 1， 其 请 求 的 数据 区 域 为 0x1000 -0100 ~0x1000 -01FF。 

假设 设备 A 首先 发 送 Re ， 然 后 再 发 送 Ri 。 但 是 设备 B 仍然 可 能 首先 收 到 Ru ， 然 后 再 
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假设 设备 A 的 Max_Read_Request_Size 参数 为 256B， 而 设备 B 可 以 为 RC 也 可 以 为 普通 的 EP。 
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收 到 Re ， 因 为 PCle 总 线 允 许 存 储 器 读 请 求 超越 存储 器 读 请 求 。 设 备 B 收 到 这 些 存储 器 读 请 求 
后 ， 向 设备 A 发 送 存储 器 读 完成 TLP (以 64B 为 单位 ) ,分别 为 Cl ~ C4 和 Cl1，~C4，。 

其 中 Cl ~ C4 使 用 的 Tag 字段 为 0， 而 C1% ~ C4, 使 用 的 Tag 字段 为 1， 分 别 与 Ri 和 
Rn 对 应 ， 这 也 意味 着 这 两 组 存储 器 读 完成 使 用 的 Transaction ID 不 同 ， 因 此 可 以 彼此 超越 ， 
这 两 组 存储 器 读 完成 TLP 对 应 的 数据 区 域 如 下 。 

e Cl 与 0x1000 - 0000 ~0x1000 -003F 对 应 ; C2, 与 0x1000 - 0040 ~0x1000 - 007F 对 
应 ; C3, 与 0x1000 - 0080 ~ 0x1000 - 00BF 对 应 ; C4% 与 0x1000 - 00C0 ~ 0x1000 - 
00FF 数据 区 域 对 应 。 

e Cl 与 0x1000 -0100 ~0x1000 -013F 对 应 ; C2 ,与 0x1000 -0140 ~0x1000 -017F 对 
应 ; C3% 与 0x1000 - 0180 ~ 0x1000 - 01BF 对 应 ; C4% 与 0x1000 -01C0 ~ 0x1000 - 
01FF 数据 区 域 对 应 。 

此 时 设备 A 收 到 的 存储 器 读 完 成 ， 有 多 种 可 能 ， 如 表 11-6 所 示 。 


表 11-6 设备 A 收 到 的 存储 器 读 完成 序列 


序列 1 序列 2 序列 3 序列 4 序列 5 序列 6 序列 7 序列 8 
Gl Cli Cl Cl Cl Clm Cl Cln 
C2m Cl C2 C2 Gl C2 C2 Clm 
C3m C2m C3n Clio 四 C3m C3m 2 
C4m C2 Chn CO Co GL Clm CO 
Cl C3 Cnm C3 C3m C2n C2m C3m 
C2 C3 Co C4 C4m C3 C3m C4m 
C3 C4m C3 C3m C3 Chm C4m C3n 
C4 Chm C4m BF Ch C4m Ch C4 


上 表 仅 列 出 了 设备 A 可 能 从 设备 B 中 收 到 的 存储 器 读 完成 序列 。 由 此 可 见 对 于 Tag 字 
段 不 同 的 存储 器 完成 报 文 ， 在 到 达 设 备 A 时 顺序 并 不 确定 。 但 是 对 于 Tag 字段 相同 的 存储 器 
读 完 成 TLP， 这 些 存 储 器 完成 报 文 是 严格 按照 地 址 “升序 ”的 顺序 到 达 设 备 A。PCIe 总 线 
的 这 种 乱 序 为 PCle 设备 的 设计 带 来 了 不 小 的 麻烦 ， 设 计 者 必须 认真 地 处 理 这 些 乱 序 可 能 。 


11.4.2 ID-Base Ordering 


IDO 模型 由 PCIe V2. 1 版 本 引入 。 该 模型 引入 了 “数据 流 ” 的 概念 ， 即 相同 的 数据 源 发 
出 的 TLP 属于 相同 的 “数据 流 ”， 而 不 同 数据 源 发 出 的 TLP 属于 不 同 的 “数据 流 ”。PCIe 链 
路 可 以 根据 “数据 流 ” 对 TLP 进行 区 分 。IDO 模型 允许 分 属 不 同 “ 数 据 流 ”的 TLP 之 间 没 
有 序 的 要 求 ， 即 可 以 “自由 乱 序 ”。 

IDO 模型 的 引入 有 利于 Switch 对 发 向 不 同 Egress 端口 的 报 文 进行 优化 处 理 。 我 们 假设 
Switch 的 一 个 Ingress 端口 收 到 了 若干 个 数据 报 文 ， 这 些 报 文 分 别 发 向 不 同 的 Egress 端口 ， 
如 图 11-5 所 示 。 

其 中 TLP1 ~3 分 别 发 向 Egress 端口 1~3 在 不 使 用 IDO 模型 的 情况 下 ， Ingress 端口 需 
要 等 待 之 前 的 报 文 被 发 送出 去 之 后 ， 才 能 发 送 之 后 的 报 文 。TLP3 、TLP2 和 TLP1 依次 进入 
Ingress 端口 ， 如 果 不 使 用 IDO 模式 时 ，TLP2 需要 等 待 TLP3 完全 离开 Ingress 端口 后 ， 才 能 
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被 发 送 ; 同 理 TLP1 需要 等 待 TLP2 离开 Ingress 端口 才能 被 发 送 。 显 然 这 种 数据 传送 方式 并 
不 合理 。 


不 使 用 IDO 模型 使 用 IDO 模型 

VO 
TLPI Ingress 端口 人 Ingress 端口 
TLP2 


TIP3 Switch Switch 


Egress 端口 1 Egress 端口 3 Egress 端口 1 Egress 端口 3 


Egress 端口 2 Egress 端口 2 
图 11-5 ”IDO 模型 的 优点 


这 种 拥塞 也 被 称 为 HOL (Head-of-Line) Blocking。 引 起 这 种 现象 的 主要 原因 是 Ingress 端 
口 每 次 只 能 处 理 一 个 报 文 引起 的 。 如 果 在 Ingress 端口 只 有 一 个 发 送 部 件 与 Egress 端口 1~3 
对 应 时 ， 即 便 使 用 IDO 模型 并 不 会 提高 效率 ， 因 为 这 些 报 文 依然 需要 通过 这 一 个 发 送 部 件 
串 行 发 送 。 由 此 可 见 对 于 这 种 类 型 的 Switch ， 使 用 IDO 模型 并 不 会 提高 效率 。 

但 是 如 果 Ingress 端口 中 有 3 个 发 送 部 件 ， 分 别 与 Egress 端口 1 ~3 对 应 时 ， 实 际 上 是 In- 
gress 端口 为 每 一 个 Egress 端口 提供 分 离 的 发 送 缓 冲 ， 这 个 缓冲 也 被 称 为 VOQ (Virtual Out- 
put Queue) 。 此 时 TLP1 ~3 的 发 送 可 以 同时 进行 ， 而 Ingress 端口 使 用 IDO 模型 ， 可 以 不 考 
虑 传送 “ 序 ”” 而 同时 发 送 TLP1 ~3 ， 从 而 极 大 地 提高 了 Switch 的 转发 效率 。 目 前 多 数 Switch 
的 mgress 端口 都 支持 VOQ 技术 。 

在 PCIe V2. 1 总 线 规范 提出 之 前 ，PLXS2 公司 已 经 使 用 类 似 IDO 模型 的 技术 以 优化 
Switch 的 数据 传送 ， 即 PLX-Specific Relaxed Ordering 技术 。 下 文 以 PEX8518 芯片 为 例 说 明 该 
技术 的 具体 实现 ,该 芯片 是 PLX 公司 设计 的 PCIe Switch。 在 PEX8518 中 ， 每 一 个 Ingress 端 
口 都 为 不 同 的 TC 设置 了 一 个 “PLX-Specific Relaxed Ordering” 使 能 位 ， 当 该 位 为 1 时 ， 当 
一 个 Ingress 端口 收 到 的 TLPs 发 向 的 Egress 端口 不 同 ， 则 没有 序 的 要 求 ， 而 Egress 端口 相同 
的 TLPs 必须 按 序 进行 。PLX 使 用 的 这 种 技术 与 IDO 模型 类 似 。 


11.4.3 ”MSI 报 文 的 序 


在 PCIe 总 线 中 ， 还 有 一 种 序 引 发 的 数据 完整 性 问题 需要 特别 注意 ， 即 由 MSI 报 文 引发 
的 数据 完整 性 问题 。PCIe 设备 使 用 MSI 机 制 时 ， 通 过 向 中 断 控制 器 发 送 MSI 报 文 以 提交 中 
断 请 求 。 然 而 对 于 PCIe 体系 结构 而 言 ， 这 个 MSI 报 文 与 普通 的 存储 器 写 报 文 并 没有 本 质 的 
区 别 ， 这 个 报 文 也 可 以 使 用 不 同 的 TC。 如 果 设 备 的 数据 传送 使 用 TC0， 而 MSI 报 文 使 用 
TC1 时 ， 将 可 能 引发 数据 完整 性 的 问题 。 

假设 一 个 PCIe 设备 正在 使 用 DMA 写 操作 ， 将 一 组 数据 传递 到 主 存储 器 ， 此 时 该 设备 将 
使 用 存储 器 写 TLP 进行 数据 传送 ， 当 数据 传送 完成 后 ， 使 用 MSI 报 文 通知 处 理 器 DMA 写 操 


”TLP1 ~3 使 用 的 Requester ID 不 同 ， 因 此 在 IDO 模型 中 ,没有 序 的 要 求 。 
包 PLX 是 PCIe Switch 芯片 的 主要 提供 商 。 
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作 已 经 结束 。 

如 果 进 行 数据 传递 的 TLP 使 用 TC0， 而 MSI 报 文 使 用 TC1 时 ， 这 两 种 TC 可 能 使 用 的 
VC 并 不 相同 ， 而 不 同 VC 间 的 数据 传递 并 没有 序 的 要 求 。 因 此 该 PCIe 设备 虽然 从 设计 逻辑 
上 保证 ， 将 传递 数据 的 存储 器 写 TLP 发 送 完毕 后 再 发 送 MSI 报 文 ， 但 是 RC 仍然 会 首先 收 到 
MSI 报 文 ， 然 后 再 收 到 传递 数据 的 存储 器 写 TLP。 

此 时 如 果 处 理 器 在 收 到 MSI 报 文 后 ， 立 即 在 中 断 处 理 服务 例 程 中 使 用 该 PCIe 设备 写 入 
的 数据 ， 将 可 能 引发 数据 完整 性 问题 。 

PCIe 总 线 规范 并 没有 约定 如 何 处 理 传 递 MSI 报 文 而 产生 的 数据 完整 性 问题 。 在 上 述 实 
例 中 ， 如 果 MSI 报 文 使 用 的 TC 与 数据 传递 使 用 的 TC 相同 ， 将 不 会 出 现 这 个 数据 完整 性 问 
题 。 如 果 在 设计 中 MSI 报 文 使 用 的 TC 与 数据 传递 使 用 的 TC 不 一 致 ， 需 要 注意 该 问题 。 

一 个 可 行 的 方法 是 在 数据 传递 结束 后 ， 使 用 “zero-length 存储 器 读 请 求 TLP” 对 目标 设 
备 进 行 读 操作 ， 这 个 读 操作 可 以 将 数据 写 和 最终 目的 地 。 当 该 读 操作 结束 后 ， 即 PCIe 设备 
收 到 存储 器 读 完成 TLP 后 ， 再 发 送 MSI 报 文 。 

如 一 个 PCIe 设备 完成 DMA 写 操作 之 后 ， 再 向 目标 地 址 ( 某 个 存储 器 地 址 ) 发 送 一 个 
“zero-length 存储 器 读 请 求 ” 报 文 ， 该 报 文 可 以 保证 之 前 的 存储 器 写 报 文 都 被 刷新 到 主 存储 
器 后 ， 才 能 从 主 存储 器 获得 应 答 信 息 ， 因 为 存储 器 读 请 求 TLP 不 能 超越 存储 器 写 报 文 。 当 
PCle 设备 收 到 与 这 个 存储 器 读 请 求 对 应 的 存储 器 读 完成 TLP 后 ， 再 发 送 MSI 报 文 进行 中 断 
请 求 。 

使 用 上 述 方法 虽然 可 以 避免 因为 传送 MSI 报 文 带 来 的 数据 完整 性 问题 ， 但 是 将 带 来 较 
大 的 中 断 延 时 。 因 为 在 PCIe 体系 结构 中 ， 一 个 设备 从 “发 送 存储 器 读 请 求 TLP” 到 “获得 
存储 器 读 完成 TLP” 的 延 时 较 长 。 而 且 使 用 这 种 方法 也 增加 了 硬件 逻辑 设计 的 难度 。 

目前 支持 多 个 VC 的 PCIe 设备 ， 通 常 将 MSI 报 文 和 数据 传送 报 文 使 用 的 TC 设置 为 相同 
的 值 ， 以 避免 数据 完整 性 问题 。 如 在 Intel 的 高 精度 声卡 控制 器 中 ， 数 据 传 送 使 用 的 报 文 和 
MSI 报 文 都 只 能 使 用 TC0。 
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11.5 小 结 


本 章 重点 介绍 PCILPCIe 总 线 的 序 。 在 局 部 总 线 中 ， 数 据 传送 顺序 以 及 与 其 相关 的 数据 
完整 性 一 直 是 系统 程序 员 的 学 习 重点 与 难点 。 对 于 系统 程序 员 而 言 ， 这 部 分 内 容 必须 熟练 党 
握 。 有 许多 系统 Bug 仍然 因为 系统 程序 员 的 踊 包 ， 或 者 并 没有 深入 理解 数据 完整 性 的 原理 ， 
而 无 意 产生 ， 并 很 难 复 现 。 这 些 Bug 将 对 一 个 处 理 器 系统 的 稳定 运行 产生 致命 影响 。 

在 PCI/PCIe 总 线 中 规定 了 数据 传送 序 ， 使 用 生产 /消费 者 模型 进行 数据 传递 ， 合 理解 决 
了 数据 完整 性 问题 。 而 设计 者 在 实现 PCI/PCIe 体系 结构 时 ， 必 须 遵循 这 些 传 送 序 ， 并 且 符 
合生 产 / 消 费 者 模型 要 求 的 数据 传送 方式 。 
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第 12 登 ” PCTe 总 线 的 应 用 


本 章 以 分 析 一 个 EP 的 硬件 设计 原理 和 基于 这 个 EP 的 Linux 驱动 程序 为 线索 ， 说明 
PCle 设备 和 基于 该 设备 的 Linux 驱动 程序 的 设计 流程 。 本 章 使 用 的 PCIe 设备 基于 Xilinx 公 
司 Vetex-5 XC5VLX50T 内 山 的 PCI Express EP 模块 ， 该 模块 也 被 Xilinx 称 为 LogiCORE。 

LogiCORE 提供 了 PCle 设备 的 物理 层 和 数据 链 路 层 ， 并 做 了 一 些 基本 的 与 事务 层 相关 的 
工作 ， 这 使 得 许多 设计 者 在 并 不 完全 清楚 PCIe 体系 结构 的 情况 下 ， 也 可 以 实现 具有 PCIe 总 
线 接 口 的 设备 。 本 章 所 述 的 PCle 设备 基于 LogiCORE ， 本 章 将 该 PCIe 设备 简称 为 Capric 卡 。 


12.1 Capric 卡 的 工作 原理 


Capric 卡 的 组 成 结构 如 图 12-1 所 示 。 


FPGA 片 内 SRAM 


DMA 控制 逻辑 


LogiCORE~ 、 
| 


与 PCIe 插 模 相连 时钟 和 复位 


图 12-1 Capric 卡 的 组 成 结构 


Capric 卡 基于 PCIe 总 线 ， 主 要 功能 是 通过 DMA 读 写 方式 与 HOST 处 理 器 进行 数据 交 
换 。Capric 卡 由 LogiCORE 、 发 送 部 件 、 接 收 部 件 、BAR 空间 、DMA 控制 逻辑 和 FPGA 片 内 
SRAM 组 成 ， 其 工作 原理 较为 简单 。 

Capric 卡 首先 使 用 DMA 读 方式 ， 将 主 存储 器 中 的 数据 搬移 到 FPCA 的 片 内 SRAM 中 ， 
然后 使 用 DMA 写 方式 , 将 FPCA 的 片 内 SRAM 中 的 数据 写 人 主 存储 器 中 。 在 Capric 卡 中 ， 
一 次 DMA 操作 可 以 传送 的 数据 区 域 的 最 大 值 为 0x7FFB (0x2047B ) 。 

Capric 卡 的 各 个 组 成 模块 的 功能 描述 如 下 所 示 。 

e LogiCORE。 其 主要 功能 是 处 理 PCIe 设备 的 物理 层 、 链 路 层 与 部 分 事务 层 的 逻辑 ， 并 

向 外 提供 必要 的 接口 。PCIe 设备 配置 空间 的 初始 化 ， 以 及 与 配置 和 中 断 请 求 相 关 的 
总 线 事务 也 由 LogiCORE 完成 。LogiCORE 是 PCIe 总 线 的 接管 者 ， 其 他 部 件 通过 Log- 
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iCORE 与 PCle 链 路 进行 通信 。LogiCORE 通过 “Host Interface” 实 现 PCIe 设备 的 初始 
化 配置 。 

e Capric 卡 的 发 送 部 件 负 责 发 送 TLP 报 文 ， 包 括 “ 存 储 器 读 请 求 ” 和 “存储 器 写 请 求 
TLP”, 但 是 并 不 包含 配置 和 消息 报 文 的 发 送 。MSI 报 文 由 发 送 部 件 通过 LogiCORE 

e 接收 部 件 负 责 接收 “存储 器 读 完成 TLP”。Capric 卡 不 支持 IO 读 写 TLP。 

e DMA 控制 逻辑 协调 发 送 与 接收 部 件 ， 以 完成 DMA 写 与 DMA 读 操 作 , 该 逻辑 的 实现 
是 Capric 卡 的 设计 重点 。 

。 BAR 空间 中 存放 了 一 组 操纵 DMA 控制 逻辑 的 寄存 句 ， 这 组 寄存 器 由 HOST 处 理 器 和 
Capric 卡 共同 读 写 ， 从 而 完成 相应 的 DMA 操作 。Capric 卡 仅 使 用 了 BARO 空间 ， 处 理 
器 使 用 存储 器 映像 寻 址 方式 ， 而 不 是 WO 映像 寻 址 方式 访问 BARO 空间 。 


12.1.1 BAR 空间 


Capric 卡 仅 使 用 BARO 空间 ， 其 大 小 为 256 B， 在 该 空间 中 包含 以 下 寄存 器 ， 这 些 寄存 


顺 使 用 小 端 编 码 方式 ， 如 表 12-1 所 示 。 


表 12-1 Capric 卡 的 BAR 空间 寄存 器 


缩写 偏 移 描 述 
DCSR1( Device Control and Status Register 1) 0x00 设备 控制 和 状态 寄存 器 1 
DCSR2( Device Control and Status Register 2) 0x04 设备 控制 和 状态 寄存 器 2 
WR_DMA_ADR 0x08 DMA 写 地 址 寄存 器 
WR_DMA_SIZE 0x0C DMA 写 传送 大 小 寄存 器 
RD_DMA_ADR 0xlC DMA 读 地 址 寄存 器 
RD_DMA_SIZE 0x20 DMA 读 传送 大 小 寄存 器 
INT_REG 0x2C 中 断 状态 寄存 器 
ERR 0x30 错误 状态 寄存 器 
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(1) DCSR1 寄存 器 ， 该 寄存 器 由 7 个 有 效 位 组 成 。 

e init_rst_o， 第 0 位 ， 该 位 可 读 写 ， 复 位 值 为 0。 为 1 表示 Capric 卡 处 于 复位 状态 ， 为 0 
表示 Capric 卡 已 经 完成 复位 。 软 件 通 过 操纵 该 位 对 Capric 卡 进 行 复位 。 其 过 程 为 首先 
向 此 位 写 1， 然后 延 时 至 少 5ps 后 (Capric 卡 内 逻辑 和 FPGA 的 片 内 SRAM 需要 至 少 
5 hs 的 复位 时 间 ) ， 再 向 此 位 写 0。 

e int_ rd_enb， 第 8 位 ， 该 位 可 读 写 ， 复 位 值 为 0。 为 1 表示 当 DMA 读 完 成 后 ，Capric 
卡 可 以 向 处 理 器 提交 中 断 请 求 ; 为 0 表示 DMA 读 完成 后 ，Capric 卡 不 能 向 处 理 器 提 
交 中 断 请 求 。 该 位 为 DMA 读 完 成 中 断 使 能 位 。 

e int_wr_enb,， 第 9 位 ,该 位 可 读 写 ， 复 位 值 为 0。 为 1 表示 当 DMA 写 完成 后 ，Capric 
卡 可 以 向 处 理 器 提交 中 断 请 求 ; 为 0 表示 DMA 写 完 成 后 ，Capric 卡 不 能 向 处 理 器 提 
交 中 断 请 求 。 该 位 为 DMA 写 完 成 中 断 使 能 位 。 

e int_rd_msk， 第 16 位 ， 该 位 可 读 写 ， 复 位 值 为 0。 为 1 表示 当 DMA 读 完 成 后 ，Capric 


卡 不 能 向 处 理 器 提交 中 断 请 求 ， 而 是 置 int_rd_pending 位 为 1; 为 0 表示 DMA 读 完 成 
后 ，Capric 卡 可 以 向 处 理 器 提交 中 断 请 求 。 该 位 为 DMA 读 完 成 中 断 屏 项 位 。 

e int_rd_pending， 第 17 位， 该 位 可 读 写 ， 复 位 值 为 0。 为 1 表示 Capric 卡 含 有 未 发 出 的 
DMA 读 完 成 中 断 请 求 ， 当 int_rd_msk 位 由 1 变 为 0 时 ，Capric 卡 发 送 该 中 断 请 求 ; 为 
0 表示 Capric 卡 不 含有 未 发 出 的 DMA 读 完 成 中 断 请 求 。 

e int_wr_msk， 第 24 位 ， 该 位 可 读 写 ， 复 位 值 为 0。 为 1 表示 当 DMA 写 完 成 后 ，Capric 
卡 不 能 向 处 理 器 提交 中 断 请 求 ， 而 是 置 int_wr_pending 位 为 1; 为 0 表示 DMA 写 完成 

后 ，Capric 卡 可 以 向 处 理 器 提交 中 断 请 求 。 该 位 为 DMA 写 完 成 中 断 屏 项 位 。 

e int_wr_pending， 第 25 位 ， 该 位 可 读 写 ， 复 位 值 为 0。 为 1 表示 Capric 卡 含有 未 发 出 

的 DMA 写 完成 中 断 请 求 ， 当 int_wr_msk 位 由 1 变 为 0 时 ，Capric 卡 发 送 该 中 断 请 求 ; 

为 0 表示 Capric 卡 不 含有 未 发 出 的 DMA 写 完成 中 断 请 求 。 

设置 Mask 和 Pending 位 的 主要 目的 是 为 了 防止 中 断 丢 失 和 产生 Spurious 中 断 请 求 ， 这 两 
位 与 MSI Capability 结构 中 的 Mask 和 Pending 位 的 功能 相似 。LogiCORE 并 不 支持 MSI Capa- 
bility 结构 中 的 Mask 和 Pending 位 ， 因 此 Capric 卡 引 入 了 这 两 个 位 。 

(2) DCSR2 ， 该 寄存 器 由 4 位 组 成 。 分 别 为 mwr_start，DMA 写 启动 位 ; mwr_done， 
DMA 写 结束 位 ; mrd_start，DMA 读 启 动 位 ; mrd_done，DMA 读 结束 位 。 

e mwr_start， 第 0 位 ， 该 位 可 读 写 ， 复 位 值 为 0。 系 统 软件 向 该 位 写 1 时 启动 DMA 写 操 

作 ， 软 件 对 此 位 写 0 无 意义 。 
e wr_done_clr, 第 1 位 ,可 读 , 写 1 清除 。 当 一 次 DMA 写 完 成 后 ，wr_done_clr 位 将 置 
1， 系 统 软件 将 wr_done_clr 位 写 1 清 零 后 ，mwr_start 位 也 将 清 零 ， 之 后 系统 软件 可 以 
重新 启动 下 一 次 DMA 写 操 作 。 

e mrd_start， 第 16 位 ， 该 位 可 读 写 ， 复 位 值 为 0。 系 统 软件 向 该 位 写 1 时 启动 DMA 读 

操作 ， 软 件 对 此 位 写 0 无 意义 。 

rd_done_clr， 第 17 位 ， 可 读 ， 写 1 清除 。 当 一 次 DMA 读 完 成 后 ，rd_done_clr 位 将 置 

1， 系 统 软件 将 rd_done_clr 位 写 1 清 零 后 ，mrd_start 位 也 将 清 零 ， 之 后 系统 软件 可 以 

重新 启动 下 一 次 DMA 读 操 作 。 

(3) WR_DMA_ADR，DMA 写 地 址 寄存 器 ， 该 寄存 器 存放 DMA 写 操作 的 目的 地 址 ， 该 
寄存 器 的 复位 值 无 意义 。 再 一 次 强调 该 寄存 器 存放 的 地 址 为 PCI 总 线 域 的 地 址 ， 而 不 是 存储 
髓 域 的 地 址 ， 尽 管 在 许多 处 理 需 系统 中 ， 该 地 址 的 PCI 总 线 域 地 址 与 存储 需 域 地 址 相等 。 该 
寄存 器 由 32 位 组 成 ,存放 32 位 的 PCI 总 线 域 地 址 。 

(4) WR_DMA_SIZE ，DMA 写 传送 大 小 寄存 咒 。 该 寄存 器 存放 一 次 DMA 写 操作 的 传 
送 大 小 ， 以 字 节 为 单位 。 该 寄存 器 的 复位 值 为 0， 由 32 位 组 成 ， 但 是 只 有 低 11 位 有 效 ， 
因此 Capric 卡 一 次 DMA 传送 的 最 大 值 为 0x7FF。 该 寄存 需 为 N 时 表示 一 次 DMA 写 操作 的 
传送 大 小 为 N 个 字 节 。 该 寄存 带 为 0 时， 即便 DCSR2 寄存 器 的 mwr_start 位 为 1 时 ， 也 不 
能 启动 DMA 写 传 送 。 当 mwr_start 位 为 1， 该 寄存 髓 由 0 变 为 其 他 数据 时 ， 也 将 启动 DMA 
写 传送 。 

(5) RD_DMA_ADR，DMA 读 地 址 寄存 器 ， 该 寄存 器 存放 DMA 读 操作 的 目的 地 址 ， 该 
寄存 器 的 复位 值 无 意义 。 该 寄存 器 存放 的 地 址 为 PCI 总 线 域 地 址 ， 由 32 位 组 成 。Capric 仅 
支持 32 位 的 PCI 总 线 地 址 。 
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(6) RD_DMA_SIZE，DMA 读 传送 大 小 寄存 器 ， 存 放 一 次 DMA 读 操作 的 传送 大 小 ， 以 
字 节 为 单位 。 该 寄存 器 的 复位 值 为 0, 由 32 位 组 成 ,但 是 只 有 最 低 11 位 有 效 ， 因 此 Capric 
卡 一 次 DMA 读 传 送 的 最 大 值 为 0x7FF。 该 寄存 器 为 N 时 表示 一 次 DMA 读 操作 的 传送 大 小 为 
N 个 字 节 。 该 寄存 带 为 0 时， 即便 DCSR2 寄存 带 的 mrd_start 位 为 1 时 ， 也 不 能 启动 DMA 读 
传送 。 当 mrd_start 位 为 1 时 ， 该 寄存 器 由 0 变 为 其 他 数据 时 ， 将 启动 DMA 读 传 送 。 
(7) INT_REG， 中 断 控制 状态 寄存 器 ， 该 寄存 需 存 放 Capric 卡 的 中 断 状态 ， 该 寄存 器 共 
由 5 个 有 效 位 组 成 。 
e int_src_rd, 第 0 位 ， 该 位 只 读 ， 复 位 值 为 0。 当 Capric 卡 的 DMA 读 操 作 完 成 后 ， 而 
且 DCSRI1 寄存 器 的 int_rd_enb 位 为 1 时， 该 位 为 1 表示 Capric 卡 已 经 向 处 理 器 提交 了 
DMA 读 完 成 中 断 请 求 。 值 得 注意 的 是 当 int_rd_msk 位 为 1 时 ，Capric 卡 不 能 发 送 
DMA 读 完 成 中 断 ， 此 时 int_sre_rd 位 需要 等 待 Capric 卡 置 int_rd_msk 位 为 0， 发 送 完 
毕 DMA 读 完 成 中 断后 ， 才 能 置 1。 
e int_src_wr， 第 1 位 ， 该 位 只 读 ， 复 位 值 为 0。 当 Capric 卡 的 DMA 写 操作 完成 后 ， 而 
且 DCSR1 寄存 器 的 int_wr_enb 位 为 1 时 ,该 位 为 1 表示 Capric 卡 已 经 向 处 理 器 提交 
了 DMA 写 完成 中 断 请 求 。 值 得 注意 的 是 当 int_wr_msk 位 为 1 时 ， Capric 卡 不 能 发 送 
DMA 写 完 成 中 断 ， 此 时 int_src_wr 位 需要 等 待 Capric 卡 置 int_wr_msk 位 为 0， 发 送 完 
毕 DMA 写 完 成 中 断后 ， 才 能 置 1。 
e rd_done_clr， 第 8 位 ， 该 位 可 读 写 ， 复 位 值 为 0， 该 位 为 1 表示 DMA 读 操作 完成 。 
DMA 读 结束 后 该 位 由 硬件 置 1， 软 件 将 该 位 清 零 后 ， 硬 件 才能 进行 下 一 次 DMA 读 操 
作 。 该 位 置 1 后 ， 如 果 DCSR1 寄存 器 的 int_rd_enb 位 为 1 时 ，Capric 卡 将 向 处 理 器 提 
交 中 断 请 求 ?。 
系统 软件 在 中 断 服务 例 程 中 ， 向 该 位 写 1 将 清除 该 位 ; 向 该 位 写 0 无 意义 。 如 果 Capric 
卡 不 使 用 中 断 方式 接收 数据 ， 系 统 软件 可 以 查询 该 位 确定 当前 DMA 读 操 作 是 否 已 经 完成 。 
此 位 与 DCSR2 寄存 器 的 rd_done_clr 位 相同 ， 软 件 清除 INT_REG 寄存 器 的 该 位 后 ，DCSR2 
寄存 器 的 rd_done_clr 位 也 被 清 零 。 
e wI_done_clr， 第 9 位 ， 该 位 可 读 写 ， 复 位 值 为 0， 该 位 为 1 表示 DMA 写 操作 完成 。 
DMA 写 完 成 后 该 位 由 硬件 置 1， 软 件 将 该 位 清 零 后 ， 硬 件 才 能 进行 下 一 次 DMA 写 操 
作 。 该 位 置 1 后 ， 如 果 DCSR1 寄存 器 的 int_wr_enb 位 为 1 时 ，Capric 卡 将 向 处 理 器 提 
交 中 断 请求 。 
系统 软件 在 中 断 服务 例 程 中 ， 向 该 位 写 1 将 清除 该 位 ; 向 该 位 写 0 无 意义 。 如 果 Capric 
卡 不 使 用 中 断 方式 接收 数据 ， 系 统 软件 可 以 查询 该 位 确定 当前 DMA 写 操作 是 否 已 经 完成 。 
此 位 与 DCSR2 寄存 器 的 wr_done_clr 位 相同 ， 软 件 清除 INT_REG 寄存 器 的 该 位 后 ，DCSR2 
寄存 需 的 wr_done_clr 位 也 被 清 零 。 
e int_asserted， 第 31 位， 该 位 只 读 ， 复 位 值 为 0。 当 Capric 卡 向 处 理 器 提交 中 断 请 求 
时 ， 该 位 由 硬件 逻辑 置 1。 对 此 位 进行 写 操作 无 意义 。 在 逻辑 实现 中 ，int_asserted = 


int_src_rd & int_ src_wr。 


© Capric 卡 可 以 使 用 Legacy INTx 或 者 MSI 方 式 进行 中 断 请 求 。 
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12.1.2 Capric 卡 的 初始 化 


Capric 卡 在 初始 化 时 需要 进行 配置 寄存 带 空 间 和 Capric 卡 人 硬件 逻辑 的 初始 化 。 其 中 配置 
寄存 器 空间 的 初始 化 由 软 硬 件 联合 完成 。 

Capric 卡 的 设计 基于 Xilinx 公司 的 LosgiCORE 。 因此 Capric 卡 需 要 使 用 Xilinx 公司 提供 的 
“CORE Generator GUI” 对 LogiCORE 进行 基本 的 初始 化 ， 并 设置 一 些 必要 的 参数 ， 包 括 
Vendor ID、Device ID、Revision ID、Subsystem Vendor ID 和 Subsystem ID 等 参数 。 有 关 该 工 
具 的 使 用 见 [LogiCORE (tm) Endpoint PIPE v1.7] ， 本 节 对 此 不 做 进一步 描述 。Capric 卡 的 
配置 寄存 咒 空 间 的 初始 值 如 下 所 示 。 

e Vendor ID 为 0x10FE ，Xilinx 使 用 的 Vendor ID。 

e Device ID 为 0x0007 ， LogiCORE 使 用 的 Device ID。 

e Revision ID 为 0x00。 

e Subsystem ID 为 0x10EE。 

e Device ID 为 0x0007。 

e Base Class 为 0x05 ， 表 示 Capric 卡 为 “类 存储 硬 控 制 右 ”。 

e Sub Class 和 Interface 为 0x00 ， 进 一 步 描述 Capric 卡 为 RAM 控制 需 。 

e Card CIS Pointer 为 0x00 ， 表 示 不 支持 Card Bus 接口 。 

e BAR0O 为 0xFFFFFF00。Capric 卡 仅 支 持 BARO 空间 ， 该 空间 采用 32 位 存储 器 映像 寻 

址 ， 其 大 小 为 256 B， 而 且 不 支持 预 读 。 在 初始 化 时 ，BARO 寄存 器 存放 该 空间 所 需 
要 的 存储 器 空间 大 小 ， 该 寄存 絮 由 系统 软件 读 取 后 ， 青 写 入 一 个 新 的 数值 。 这 个 数值 
为 BARO 空间 使 用 的 基地 址 。 

e Max_Payload_Size Supported 参数 为 0b010， 即 Max_Payload_Size Supported 参数 的 最 大 值 
为 512 B。 多 数 RC 支持 的 Max_Payload_Size Supported 参数 仅 为 128 B 或 者 256 B。 因 此 
LogiCORE 支持 512 B 已 经 足够 了 。 在 Capric 卡 的 初始 化 阶段 ， 需 要 与 对 端 设备 进行 协 
商 ， 确 认 Max_Payload_Size 参数 的 值 ， 如 果 Capric 卡 与 mtel 的 Chipset 直接 相连 ， 该 参 
数 为 128 B 或 者 256 B。Capric 卡 需要 根据 协商 后 的 Max_Payload_Size 参数 ， 而 不 是 Max 
_Payload_Size Supported 和 参数， 确定 存储 器 写 TLP 有 效 负载 的 大 小 。 当 DMA 写 的 数据 区 
域 超过 Max_Payload_Size 参数 时 ， 需 要 进行 拆 包 处 理 ， 详 见 第 12. 2. 1 节 。 

® Capric 卡 不 支持 Phantom 功能 。 即 不 能 使 用 Function 号 进一步 扩展 Tag 字段 。Phan- 

tom 功能 的 详细 说 明 见 第 4. 3.2 节 。 

e Multiple Message Capable 参数 为 0b000 ， 即 支持 一 个 中 断 疝 量 。 

e Max_Read_Request_Size 参数 为 0b010 ， 即 存储 需 读 请 求 TLP 一 次 最 多 能 够 从 目标 设备 

中 读 取 512 B 大 小 的 数据 。 如 果 DMA 读 的 数据 区 域 超过 512 B 时 ， 需 要 进行 拆 包 处 
理 ， 详 见 第 12.2.2 节 。 

系统 软件 在 Capric 卡 初始 化 时 ， 将 分 析 Capric 卡 的 配置 空间 ， 并 填写 Capric 卡 的 配置 
寄存 器 空间 。 值 得 注意 的 是 ， 系 统 软件 对 Capric 卡 进行 配置 时 ，Capric 卡 将 保留 该 设备 在 
PCI 总 线 树 中 的 Bus Number、Device Number 和 Function Number，LogiCORE 使 用 寄存 器 cfg_ 
bus_number[7:0] 、cfg_device_number[4:0] 和 cfg_function_number[2:0] 存 放 这 组 数值 ， 当 
LogiCORE 发 起 存储 器 读 请 求 TLP 时 ， 需 要 使 用 这 组 数值 。 
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在 设备 驱动 程序 中 ，Capric 卡 需要 执行 以 下 步骤 完成 硬件 初始 化 。 

(1) 向 DCSR1 寄存 器 的 init_rst_o 位 写 1。 

(2) 延 时 5 hs。 

(3) 向 DCSR1 寄存 器 的 init_rst_o 位 写 0。 

(4) 向 DCSR1 寄存 器 的 int_rd_enb 和 int_wr_enb 位 写 1， 使 能 DMA 读 写 中 断 请 求 。 


12.1.3 DMA 与 


Capric 卡 使 用 DMA 写 过 程 将 Capric 卡 SRAM 中 的 数据 发 送 到 HOST 处 理 器 。 在 设备 驱 
动 程序 中 ，DMA 写 过 程 如 下 所 示 。 

(1) 填写 WR_DMA_ADR 寄存 器 ， 注 意 填 写 的 是 PCI 总 线 域 的 地 址 。 

(2) 填写 WR_DMA_SIZE 寄存 器 ， 以 字 节 为 单位 。 

(3) 填写 DCSR2 寄存 器 的 mwr_start 位 ， 启 动 DMA 写 。 

(4) 等 待 DMA 写 完成 中 断后 ， 结 束 DMA 写 。 如 果 系 统 软件 屏蔽 了 DMA 写 完 成 中 断 ， 
可 以 通过 查询 INT_REG 寄存 器 的 wr_done_clr 位 判断 DMA 写 是 否 已 经 完成 。 在 Capric 卡 中 ， 
上 一 次 DMA 写 操 作 没 有 完成 之 前 ， 不 能 启动 下 一 次 DMA 写 操 作 。 

(5) 最 后 将 wr_done_clr 位 清 零 。 

从 硬件 设计 的 角度 来 看 ，DMA 写 过 程 较为 复杂 。Capric 卡 需 要 通过 DMA 控制 逻辑 ， 组 
织 一 个 或 者 多 个 存储 器 写 TLP， 将 SRAM 中 的 数据 进行 封装 然后 传递 给 发 送 部 件 ， 再 由 发 送 
部 件 将 数据 传送 到 LogiCORE ， 最 后 由 LogiCORE 将 存储 器 写 TLP 传递 给 RC。 

如 果 一 次 DMA 写 所 传递 的 数据 超过 了 512 B2 ， 那 么 DMA 控制 逻辑 需要 传递 多 个 存储 
器 写 TLP 给 发 送 部 件 ， 才 能 完成 一 次 完整 的 DMA 写 操作 。 而 且 在 DMA 操作 中 需要 进行 数 
据 对 界 。 其 详细 实现 过 程 见 第 12. 2. 1 节 。 


12.1.4 DMA 读 


Capric 卡 使 用 DMA 读 过 程 将 主 存储 需 中 的 数据 读 到 Capric 卡片 内 SRAM 中 。 在 设备 驱 
动 程 序 中 ，DMA 读 过 程 如 下 所 示 。 

(1) 填写 RD_DMA_ADR 寄存 器 ， 注 意 此 处 填写 的 是 PCI 总 线 域 的 地 址 。 

(2) 填写 RD_DMA_SIZE 寄存 器 ， 以 字 节 为 单位 。 

(3) 填写 DCSR2 寄存 器 的 mrd_start 位 ， 启 动 DMA 读 。 

(4) 等 待 DMA 读 完 成 中 断 产生 后 ， 结 束 DMA 读 。 如 果 系 统 软 件 屏蔽 了 DMA 读 完 成 中 
斯 ， 则 系统 软件 可 以 通过 查询 INT_REG 寄存 器 的 rd_done_clr 位 判断 是 否 DMA 读 已 经 完成 。 
在 Capric 卡 中 ， 上 一 次 DMA 读 操作 没有 完成 之 前 ， 不 能 启动 下 一 次 DMA 读 操 作 。 

(5) 最 后 将 rd_done_clr 位 清 零 。 

从 硬件 设计 的 角度 来 看 ，DMA 读 过 程 比 DMA 写 过 程 复 杂 。PCle 总 线 使 用 Split 方式 实 
现存 储 器 读 。Capric 卡 的 1 次 DMA 读 操 作 使 用 两 种 TLP 报 文 ， 并 通过 发 送 部 件 和 接收 部 件 
协调 完成 。 


© LogiCORE 规定 Max_Payload_Size 为 512 B。 
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(1) 首先 DMA 控制 逻辑 组 织 一 个 或 者 多 个 存储 器 读 请 求 TLP， 然 后 由 发 送 部 件 将 存储 
器 读 请 求 TLP 传递 给 RC。 

(2) RC 正确 接收 到 这 个 请 求 报 文 后 ， 使 用 一 个 或 者 多 个 存储 器 读 完成 TLP 将 数据 传递 
给 Capric 本 下 

(3) Capric 卡 接收 逻辑 从 RC 中 获得 这 些 存 储 器 读 完 成 TLP 时 ， 需 要 首先 处 理 乱 序 ， 之 
后 完成 一 个 DMA 读 操 作 ， 并 向 RC 提交 中 断 请 求 。 

如 果 一 次 DMA 读 请 求 的 数据 大 于 512 B2 时 ，DMA 控制 逻辑 需要 发 送 多 个 存储 器 读 请 
求 TLP 给 RC， 而 且 在 DMA 读 操 作 中 需要 进行 数据 对 界 。 尤 其 值得 注意 的 是 这 几 个 TLP 的 
Tag 字段 不 能 相同 ， 为 此 硬件 逻辑 必须 正确 维护 存储 器 读 请 求 使 用 的 Tag 字段 。DMA 读 操 作 
的 详细 实现 过 程 见 第 12.2. 2 市 。 


12.1.5 中 晰 请 求 


Capric 卡 使 用 MSI 机 制 提交 中 断 请 求 ， 并 只 使 用 了 一 个 中 断 向 量 处 理 DMA 读 / 写 完成 和 
错误 处 理 。 本 章 为 简便 起 见 ， 忽 略 了 错误 处 理 的 过 程 ， 但 是 在 一 个 实际 的 设计 中 ， 错 误 处 理 
及 恢复 过 程 非常 重要 。 

当 DCSR1 寄存 器 的 int_rd_enb 和 int_wr_enb 位 为 1， 而 且 int_wr_msk 和 int_rd_msk 不 为 
1 时 ，DMA 读 写 完成 后 ，Capric 卡 将 向 处 理 帮 提交 中 断 请 求 。 当 DMA 读 写 完成 后 ， 硬 件 逻 
辑 将 INT_REG 寄存 器 的 int_asserted 位 置 为 1， 表 示 有 中 断 请 求 。 此 时 系统 软件 需要 进一步 
查询 INT_REG 寄存 器 的 int_src_rd 和 int_src_wr 位 S ， 判 断 该 中 断 请 求 为 DMA 读 完 成 还 是 
DMA 写 完 成 ， 其 步 又 如 下 。 

(1) 如 果 int_asserted 位 为 1， 表示 Capric 卡 提交 了 一 个 中 断 请 求 ， 否 则 转 (6) 。 

(2) int_sre_rd 位 为 1， 表 示 Capric 卡 提交 了 一 个 DMA 读 完 成 中 断 请 求 ， 否 则 转 (4) 。 
此 时 rd_done_clr 位 也 应 该 为 1 。 

(3) 进行 DMA 读 完成 处 理 。 问 rd_done_clr 位 写 1 ， 清 除 DMA 读 完 成 请 求 位 ， 转 (6)。 

(4) 如 果 int_sre_wr 位 为 1， 表 示 Capric 卡 提交 了 一 个 DMA 写 完成 中 断 请 求 。 此 时 wr_ 
done_clr 位 也 应 该 为 1 。 

(5) 进行 DMA 写 完成 处 理 。 向 wr_done_clr 位 写 1， 清 除 DMA 读 完 成 请 求 位 。 

(6) 结束 。 

以 上 过 程 仅 为 一 个 简单 的 中 断 服务 例 程 的 执行 流程 ， 一 个 具体 设备 驱动 程序 在 DMA 读 
写 完 成 后 ， 将 检查 一 些 返 回 状 态 ， 以 确定 DMA 读 写 是 否 正确 结 


12.2 ”Capric 卡 的 数据 传递 


本 节 主 要 介绍 系统 软件 在 局 动 DMA 读 写 操作 时 ， 硬 件 逻 辑 的 工作 过 程 ， 包 括 软 件 局 动 
DMA 写 时 ，Capric 卡 如 何 向 RC 发 送 存 储 器 写 TLP; 软件 启动 DMA 读 时 ，Capric 卡 如 何 向 


LogiCORE 规定 Max_Read_Request_Size 为 512 B。 
四 ”Capric 卡 也 可 以 使 用 多 个 MSI 报 文 (Multiple Message) ， 其 中 DMA 写 完成 和 读 完 成 分 别 对 应 一 个 MSI 报 文 ， 而 无 
需 查 询 目前 Linux 系统 并 不 支持 PCIe 设备 的 Multiple Message 功能 。 
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RC 发 送 存储 器 读 请 求 TLP， 以 及 Capric 卡 如 何 接收 来 自 RC 的 存储 器 读 完 成 TLP。 
如 果 考 虑 DMA 读 写 操作 的 数据 对 界 ，DMA 读 写 操作 的 实现 较为 复杂 。 为 此 本 节 定 义 了 
两 种 操作 处 理 对 界 问题 。 
(1) 向 前 X 字 节 对 界 
向 前 对 界 操 作 使 用 Head、(Y) 也 数 ， 其 中 YY 参数 对 应 某 个 物理 地 址 ;而 X 参数 对 应 对 
界 单位 ， 其 值 必须 为 2 的 究 。 该 函数 的 计算 方法 如 公式 12-1 所 示 。 
Heady(Y) =Y-(Y mod X) (12-1) 
由 以 上 公式 ， 可 以 得 出 Head, (0x1000) = 0x1000， 而 Heads (0x1007) = 0x1004。 该 操 
作 非 常 适合 硬件 实现 ， 在 硬件 实现 中 Headx(Y) = YY .Yu0。i0。 .00o。 如 果 了 的 
长 度 为 32b， 则 n 等 于 31， 而 m 等 于 Log, (X)。 因 此 在 硬件 逻辑 中 ， 只 要 将 YY 的 第 
0 ~m -1 位 清 零 即 可 。 
(2) 向 后 X 字 节 对 界 
向 后 对 界 操 作 使 用 Tail.(Y) 函数 ， 其 中 YY 参数 对 应 某 个 物理 地 址 ; 而 X 参数 对 应 对 界 
单位 ， 其 值 必须 为 2 的 需 。 该 函数 的 计算 方法 如 公式 12-2 所 示 。 
Tail\(Y) = Headi(Y) +X -1 (12-2) 
由 以 上 公式 ， 可 以 得 出 Tail (0x1000) = 0x1003， 而 Tail, (0x1007) = 0x1007。 该 操作 
也 非常 适合 硬件 实现 ， 在 硬件 实现 中 Tailx(Y) = YY .YL .ll。 如 果 Y 的 
长 度 为 32b， 则 mn 等 于 31， 而 m 等 于 Log(X) 。 因 此 在 硬件 逻辑 中 ， 只 要 将 Y 的 第 0 ~m -1 
位 置 1 即 可 。 


12.2.1 DMA 写 使 用 的 TLP 


当 软 件 启动 DMA 写 过 程 后 ，DMA 控制 逻辑 将 组 织 存储 器 写 TLP 发 送 给 RC。PCIe 总 线 
使 用 Posted 总 线 事务 发 送 存储 器 写 TLP。Capric 卡 使 用 4DW 长 度 的 TLP 头 ， 即 使 用 64 位 地 
址 编码 格式 。 存 储 器 写 TLP 由 一 个 通用 TLP 头 加 上 知 干 数据 字段 组 成 ,存储 器 写 TLP 格式 
如 图 12-2 所 示 。 


+0 十 1 十 2 +3 
7|6|5 4~0 7| 6~4 3~0 17156515 一 4|3 一 211 一 0 7 一 0 

Byte0 |R| Fmt Type RI TC ] R 避 | 咏 | Attr | AT Length 
Byte 4 与 Type 字段 相关 Last DW BE | First DW BE 
Byte 8 Address[63:32] 
Byte 12 Address[31:2] R 
Byte 16 Data 0 

1 1 

1 1 
Byte … Data(Length-1) 


图 12-2 存储 需 写 请 求 TLP 
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1. DMA 写 操作 使 用 的 实际 长 度 

DMA 写 逻 辑 首 先 从 WR_DMA_ADR 寄存 器 中 获得 起 始 地 址 A( Ay Ay. .. AiAo)， 然 后 从 
WR_DMA_SIZE 寄存 合 中 获得 传送 长 度 L(Li;Ly...LL),， 并 由 A 和 LL， 通 过 计算 获得 本 次 
DMA 写 的 结束 地 址 B(B, B,, .. B,B,) ， 其 值 如 公式 12-3 所 示 。 

B=A+L-1 (12-3) 

系统 软件 需要 保证 B 的 计算 结果 不 会 出 现 进 位 ， 而 DMA 写 逻 辑 由 公式 12-3 获得 本 次 
数据 传送 的 地 址 范围 A ~ B。 在 存储 器 读 写 TLP 中 ，Length 字段 以 DW 为 单位 ， 因 此 向 A ~B 
这 段 数据 区 域 进行 DMA 写 时 ，Capric 卡 实际 上 需要 向 Head,(A) ~ Tail(B) 这 段 数 据 区 域 进 
行 DMA 写 操作 ， 同 时 使 用 TLP 的 First DW BE 和 Last DW BE 字段 进行 对 界 处 理 。 

如 果 一 次 DMA 写 操作 向 0xFFF0 - 0003 ~ OxFFF0 - 0200 这 段 区 域 传送 数据 时 ， 虽 然 这 
段 数据 区 域 的 长 度 为 0x1FE 字 节 ? ,但 是 由 于 TLP 的 Length 字段 以 DW 为 基本 单位 ， 因 此 
Capric 卡 需 要 向 0xFFF0 -0000 ~0xFFF0 -0203 这 段 区 域 进行 写 操作 ， 然 后 通过 First DW BE 
和 Last DW BE 字段 屏蔽 0xFFF0 -0000 ~0xFFF0 - 0002 和 OxFFFO - 0201 ~ OxFFF0 -0203 这 
两 段 数 据 区 域 。 

因此 在 工 中 存放 的 长 度 (A ~B 数据 区 域 的 长 度 ) 并 不 是 该 TLP 使 用 的 实际 长 度 。 在 该 
TLP 中 使 用 的 实际 长 度 为 Head,(A) ~ Tail,(B) 这 段 数据 区 域 的 长 度 。 本 节 使 用 M (MM 
.. .MIMo) 保存 TLP 中 使 用 的 实际 长 度 ， 其 值 如 公式 12-4 所 示 。 

M= (Tail,(B) - Head,(A) +1)>>2 (12-4) 

使 用 以 上 公式 可 以 较为 方便 地 得 出 DMA 写 操作 使 用 的 实际 长 度 , 但 是 公式 12-3 和 公 
式 12-4 中 使 用 了 多 个 32 位 的 加 法 器 ， 非 常 耗费 FPGA 的 内 部 资源 。 为 此 本 次 设计 使 用 了 另 
外 一 种 算法 计算 M 的 值 ， 如 公式 12-5 所 示 。 

M’' = ( Head, (00A,A, +00LL, +3) - Head, (004,4,)) 
M = >2 +M'>2 (12-5) 

我 们 可 以 使 用 公式 12-5 计算 0xFFF0 -0003 ~0xFFFO -0200 这 段 区 域 使 用 的 实际 长 度 M。 在 
这 段 区 域 中 ，A 为 OxFFF0 -0003， 而 工 =OxlFE， 因 此 M' 等 于 8， 而 M =0x7F +0x2 =0x81。 该 结 
果 与 公式 12-4 计算 结果 相等 。 但 是 在 公式 12-5 中 ，M' 的 计算 仅 使 用 4 位 加 法 器 ， 其 实现 代价 比 
公式 12-4 所 耗费 的 资源 少 得 多 ， 更 为 重要 的 是 计算 速度 也 比 公 式 12-4 快 得 多 。 

在 LogiCORE 中 ，Max_Payload_Size Supported 参数 的 最 大 值 为 512 B。 但 是 链 路 两 端 经 过 
协商 后 ， 实 际 确认 的 Max_Payload_Size 参数 可 能 小 于 512 B， 在 多 数 x86 处 理 器 系统 中 ， 该 
参数 为 128B ， 因 此 下 文 假设 Max_Payload_Size 参数 为 128 B。 

当 M 大 于 0x20 ( 即 数据 区 域 的 实际 长 度 超过 128 B) 时 ，Capric 卡 进行 DMA 写 时 需要 
发 送 多 个 存储 器 写 请 求 TLP， 而 M 小 于 或 等 于 0x20 时 仅 需要 发 送 1 个 存储 器 写 请 求 TLP。 
下 文 分 别 讨论 这 两 种 情况 。 

2，M 小 于 或 等 于 0x20 

Capric 卡 向 数据 区 域 [ As Ay. .. A Au ~ Ba By. .. B, Bu] 进行 DMA 写 操 作 时 ， 如 果 通 
过 公式 12-5 的 计算 发 现 M 小 于 或 等 于 0x20，DMA 控制 逻辑 将 组 织 1 个 或 者 2 个 存储 器 写 


”数据 区 域 的 大 小 为 数据 尾 地 址 - 数据 首 地 址 +1， 即 0xFFF0 -0200 -OxFFF0 -0003 +1=0xlFE。 


305 


TLP 传递 给 LogiCORE。 
如 果 这 个 TLP 所 传递 的 数据 区 域 跨越 了 4KB 边界 ， 将 组 织 2 个 存储 器 写 TLP， 因 为 
PCle 总 线 规定 被 传送 的 数据 区 域 不 能 跨越 4KB 边界 ， 如 果 没 有 跨越 4KB 边界 ，Capric 卡 组 
织 1 个 存储 器 写 TLP。 我 们 首先 讨论 这 段 数 据 区 域 没 有 跨越 4KB 边界 的 情况 ， 此 时 这 个 存储 
器 写 TLP 的 各 个 字段 如 下 所 示 。 
e Fmt 字段 为 0b10 或 者 0b11 ， 表 示 使 用 3DW 或 者 4DW 的 TLP 头 ， 而 且 带 有 数据 。 在 
Capric 中 ，Fmt 字段 为 0b011。 

e Type 字段 为 0b00000， 表 示 当 前 TLP 为 存储 器 写 TLP。 

e TC 字段 为 0b000， 表 示 传 送 类 型 为 TC0 。 

e TD 位 为 0b0 ， 表 示 当 前 TLP 不 含有 ECRC 信息 。 

e EP 位 为 0b0 ， 表 示 当 前 TLP 是 正常 的 ， 没 有 出 现 完整 性 问题 。 

e Attr 字段 为 0b00， 表 示 当 前 TLP 不 使 用 Relaxed Ordering， 由 硬件 完成 Cache 一 致 性 操 

作 。 有 关 Cache 一 致 性 的 处 理 见 第 3.3 节 和 第 12. 3.6 节 ， 而 Relaxed Ordering 的 描述 
见 第 11.4 节 。 

e AT 字段 为 0b00， 表 示 不 进行 地 址 转换 。 

e Length 字段 由 公式 12-5 计算 而 来 ， 其 值 与 M 相等 ， 单 位 为 DW， 最 大 值 为 0x20， 即 
128 B。 假 定 在 Capric 卡 中 ，Max_Payload_Size 参数 为 128 B。 在 x86 处 理 器 系统 中 ， 
多 数 RC 的 Max_Payload_Size 参数 为 128B。 

e Address 字段 为 A; Ay. . . A,。Address 字段 为 DW 对 界 的 ， 共 由 30 位 组 成 。 

e 当 M 不 等 于 1 时，Last DW BE 字段 与 TLP 报 文 的 结束 地 址 有 关 ， 更 准确 地 讲 ， 与 B， 
和 Bu 位 有 关 ， 如 下 所 示 。 

B,B, =0bl11， 则 Last DW BE 字段 为 0x1111。 
B,B, =0b10， 则 Last DW BE 字段 为 0x0111。 
B,B, =0b01， 则 Last DW BE 字段 为 0x0011。 
B,B, =0b00， 则 Last DW BE 字段 为 0x0001。 

e 当 M 不 等 于 1 时 ，First DW BE 字段 与 TLP 报 文 的 起 始 地 址 有 关 ， 更 准确 地 讲 ， 与 A， 

和 Au 位 有 关 ， 如 下 所 示 。 

AiA。 =0b00， 则 First DW BE 字段 为 0x1111。 
AiA。 =0b01， 则 First DW BE 字段 为 0x1110。 
AiAo =0b10， 则 First DW BE 字段 为 0x1100。 
AA, =0bl1， 则 First DW BE 字段 为 0x1000。 

当 M 等 于 1 时，Last DW BE 字段 必须 为 0b0000; First DW BE 字段 的 计算 与 A,A。 和 
B,B, 相关 ， 其 中 (First DW BE) A,A, ~ (First DW BE) B,B, 字段 为 1， 其 他 位 为 0。 这 两 
个 字段 的 关系 如 表 12-2 所 示 。 

表 12-2 First DW BE 与 A1A0，B1B0 之 间 的 关系 


江 


Al Au Bi Bu First DW BE Last DW BE 
0b00 0b00 0b0001 0b0000 
0b00 0b01 0b0011 0b0000 
0b00 0b10 0b0111 0b0000 


了 00 


( 续 ) 


Ai Al Bi Bo First DW BE Last DW BE 
0b00 0b1l1 Obl111 0b0000 
Ob01 0b01 0b0010 0b0000 
0b01 0b10 0b0110 0b0000 
0b01 0b1l1 0bl110 0b0000 
0b10 0b10 0b0100 0b0000 
0b10 0b1l1 0b1100 0b0000 
Obl1 0b1l1 0b1000 0b0000 


值得 注意 的 是 ， 当 M 小 于 或 等 于 0x20 时 ，TLP 所 传递 的 报 文 ， 其 数据 区 域 依然 可 能 会 
跨越 4 KB 边界 。 如 Capric 卡 向 0xFFFF -OFFF ~O0xFFFF -1000 数据 区 域 进 行 DMA 写 时 ， 虽 
然 M 等 于 0x2 (实际 长 度 只 有 两 个 字 节 ) ， 但 是 Capric 卡 需要 使 用 两 个 存储 器 写 请 求 TLP， 
分 别 向 OxFFFF -OFFF ~OxFFFF -00 -OFFF 和 OxFFFF -1000 ~0xFFFF - 1000 这 两 段 数据 进 
行 写 操作 。 

由 此 可 以 发 现 ， 当 Capric 卡 对 A ~B 这 段 数据 区 域 ? 进 行 DMA 写 时 ， 首 先 需 要 判断 这 段 
区 域 是 否 跨越 4 KB 边界 。 如 果 跨 越 则 需要 向 A ~ Tail4096(A) 和 Head4096(B) ~B 这 两 段 
数据 区 域 进 行 写 操作 ， 这 两 段 数据 区 域 一 定 都 小 于 0x20， 因 此 采用 上 文 描述 的 方法 组 织 TLP 
报 文 即 可 。 

3. M 大 于 0x20 

如 果 M 大 于 0x20， 此 时 Capric 卡 进 行 一 次 DMA 写 操作 时 ，LogiCORE 需要 向 RC 发 送 
多 个 存储 器 写 请 求 TLP。 我 们 假设 Capric 卡 需 要 向 [ As Ayo.. .Al Au ~ BsBy...B, Bu,] 这 段 
数据 区 域 进行 DMA 写 操作 ， 而 且 这 段 数据 区 域 的 M 大 于 0x20。 此 时 DMA 写 逻 辑 需 要 进行 
拆 包 操作 。 这 个 拆 包 操 作 需 要 遵循 以 下 原则 。 

(1) TLP 传递 的 数据 区 域 不 能 跨越 4 KB 边界 。 

为 此 Capric 卡 首先 需要 分 析 A ~ B 这 上 段 是 否 跨越 4 KB 边界 。 值 得 注意 的 是 ， 在 Capric 
卡 中 ,一 次 DMA 写 的 长 度 小 于 2048， 因 此 其 传递 的 数据 区 域 至 多 会 跨越 一 个 4 KB 边界 。 
此 时 需要 向 A ~Tailjowe (A) 和 Headsowe(B) ~B 这 两 段 数据 区 域 进行 写 操作 ， 而 且 这 两 段 数据 
区 域 的 M 都 可 能 大 于 0x20。 下 文采 用 的 拆 包 方法 可 以 保证 在 不 进行 4KB 边界 检查 的 情况 
下 ， 保 证 拆 分 后 的 TLP 不 会 跨越 4KB 边界 。 

(2) 尽量 减少 拆 分 后 TLP 的 总 个 数 。 

比如 ， 可 以 将 0x1000 ~ 10FF 这 段 数 据 区 域 拆 分 为 0x1000 ~ 107F 和 0x1080 ~ 0xl0FF， 尽 
量 利用 Max_Payload_Size 参数 ， 而 不 使 用 更 多 的 TLP 进行 数据 传递 。 

(3) 拆 分 后 的 TLP 尽量 不 跨越 Cache 行 边界 。 虽 然 PCIe 总 线 规 范 并 没有 规定 拆 分 TLP 
的 方法 。 但 是 将 0x1000 ~ 10FF 这 段 数 据 区 域 拆 分 为 0x1000 ~ 0x107E，, 0x107F ~ 0x108F 和 
0x1090 ~0x10FF， 从 原理 上 讲 是 可 行 的 ， 可 是 并 不 合理 。 


”这 段 数据 区 域 的 有 效 长 度 小 于 等 于 0x80， 即 M0x20。 
晶 如果 B>Tailjwe。 (A) 时 ,表示 当 前 数据 区 域 超越 4 KB 边界 。 
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在 Capric 卡 中 ， 为 了 简化 设计 ， 当 M 大 于 0x20 时 将 采用 以 下 规则 进行 拆 包 处 理 。 
e 第 一 个 TLP 的 起 始 地 址 必须 为 0xA;, A». . . A;， 而 其 他 TLP 的 起 始 地 址 必须 为 0x80 字 


节 对 界 。 
。 最 后 一 个 TLP 的 结束 地 址 必须 为 0xB; By. . . B,， 而 其 他 TLP 的 结束 地 址 必须 为 0x80 
字 节 对 界 。 


根据 以 上 规则 ， 我 们 可 以 将 Ay Ay0. .. A A ~ B;, By»...B, B, 这 段 数据 区 域 划 分 为 多 个 
数据 区 域 ， 其 中 每 一 个 区 域 的 Length 字段 不 超过 0x20 ， 而 且 每 段 数据 区 域 以 128 B 对 界 。 

AAA A, ~ Tailys (A) 

Heads (A +128) ~ Tailiys (A +128) 


Headjys (A+nx128) ~Tailys (A+n x128) 


Head,s (B) ~ B;By...B, Bo 

以 上 这 些 数 据 区 域 的 M 都 小 于 或 等 于 0x20， 而 旦 都 不 会 跨越 128B 边界 ， 因 此 也 不 可 能 
跨越 4 KB 边界 。 向 这 些 数据 区 域 传送 数据 时 ，TLP 各 字段 的 设置 参见 M 小 于 或 等 于 0x20 的 
情况 。 当 Capric 卡 将 这 些 存 储 器 写 请 求 TLP 发 送 完毕 后 ， 可 以 向 处 理 器 提交 中 断 请 求 。 


12.2.2 DMA 读 使 用 的 TLP 


与 DMA 写 模 块 相 比 ，DMA 读 模 块 的 逻辑 设计 较为 复杂 。 在 PCIe 总 线 中 ， 存 储 器 写 
TLP 使 用 Posted 总 线 传送 方式 ， 实 现 DMA 写 操 作 只 需要 使 用 存储 器 写 TLP 即 可 。 而 PCIe 总 
线 使 用 Split 总 线 传送 方式 进行 存储 器 读 操作 。 因 此 一 个 DMA 读 过 程 由 EP 向 RC 发 送 “ 存 
储 器 读 请 求 TLP”， 之 后 再 由 RC 使 用 “存储 器 读 完成 TLP” 将 数据 传递 给 EP。 

当 软 件 启动 DMA 读 操作 后 ，DMA 控制 逻辑 将 根据 需要 读 取 数 据 区 域 的 大 小 ， 决 定 发 送 
存储 器 读 请 求 TLP 的 个 数 ， 如 果 所 读 取 数据 区 域 的 实际 长 度 超过 Max_Read_Request_Size 参 
数 ? 时 ，DMA 控制 逻辑 需要 进行 拆 包 处 理 ， 向 RC 发 送 多 个 存储 器 读 请 求 TLP， 这 些 存储 器 
读 请 求 TLP 将 使 用 不 同 的 Tag。 

当 RC 收 到 这 些 存 储 器 读 请 求 TLP 后 ， 将 使 用 存储 器 读 完 成 TLP， 将 数据 传递 给 Capric 
卡 。 其 中 一 个 存储 器 读 请 求 TLP (Tag 不 同 的 报 文 ) 可 能 对 应 多 个 存储 器 读 完 成 TLP， 而 且 
这 些 存储 器 读 完 成 TLP 可 以 乱 序 到 达 。 

在 Capric 卡 的 DMA 读 模 块 的 设计 中 ， 首 先 需要 进行 拆 包 处 理 ， 其 次 需要 合理 地 管理 
Tag 资源 ， 而 最 值得 注意 的 是 对 存储 器 读 完成 TLP 的 乱 序 处 理 。 为 此 在 Capric 卡 中 设置 了 一 
个 单 向 循环 链表 tag_queue， 以 便 Capric 卡 发 送 存储 器 读 请 求 TLP， 进 行 Tag 资源 的 管理 ， 并 
处 理 存储 器 读 完 成 TLP 的 序 。 

二 tag_queue 

Capric 卡 的 DMA 读 模 块 使 用 了 一 个 单 向 循环 队列 tag_queue， 当 然 设计 者 也 可 以 使 用 其 
他 逻辑 实现 同样 的 功能 。 实 际 上 对 于 Capric 卡 而 言 ,设置 这 样 的 循环 队列 是 奢侈 的 ， 因 为 


日 在 LogiCORE 中 该 参数 为 512 B。 
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Capric 卡 仅 实现 了 基本 的 DMA 读 写 操作 。 该 循环 队列 实际 上 是 为 笔者 的 另 一 个 设计 ， 即 
Cornus 卡 2 准 备 的 。 
在 tag_queue 队列 中 ， 设 置 了 头 尾 指针 ， 分 别 为 tag_front 和 tag_rear，Capric 卡 使 用 8 
位 ?寄存 器 存放 这 两 个 指针 。 该 队列 的 每 一 个 Entry 对 应 一 个 tag 资源， 其 Entry 号 与 Tag 
号 一 一 对 应 。DMA 读 模 块 从 tag_rear 指针 获得 当前 可 以 使 用 的 tag 资源 (相当 于 将 获得 的 
tag 字段 加 入 tag_queue 中 ) ， 并 从 tag_front 指针 处 释放 tag 资源 (相当 于 从 tag_queue 的 头 部 
释放 资源 ) 在 tag_front 和 tag_rear 之 间 的 Entry 保存 正在 使 用 的 tag 资源 。 tag_dueue 队列 的 
组 成 结构 如 图 12-3 所 示 。 
在 Capric 卡 复位 时 ，tag_front 与 tag_rear 指针 同时 指向 Entry 0， 此 时 tag_queue 为 空 。 
当 Capric 卡 需 要 使 用 tag 资源 时 ， 首 先 判断 tag_queue 是 否 为 满 ， 如 公式 12-6 所 示 。 
(tag_rear +1)mod256 =tag_front (12-6) 
当 tag_queue 队列 不 满 时 ， Capric 卡 可 以 从 tag_queue 中 获得 tag 资源 ， 其 值 等 于 tag_ 
rear， 然 后 将 tag_rear 更 新 为 (tag_rear +1) mod 256 (相当 于 将 获得 的 tag 加 入 到 tag_queue 
队列 中 )。 当 Capric 卡 释放 tag 资源 时 ， 需 要 判断 tag_queue 是 否 为 空 ， 如 公式 12-7 所 示 。 
tag_rear =tag_front (12-7) 
在 Capric 卡 中 ， 到 达 的 存储 器 读 完 成 TLP 因为 乱 序 的 原因 ， 其 tag 字段 不 一 定 与 tag_ 
front 相等 。Capric 卡 错误 处 理 逻 辑 需 要 判断 到 达 的 存储 器 读 完成 TLP 的 tag 字段 是 否 在 tag_ 
front 和 tag_rear 之 间 (在 图 12-3d 中 ， 阴 影 部 分 的 Entry 在 当前 tag_queue 中 有 效 ) ， 其 判断 
条 件 如 公式 12-8 所 示 。 
(tag -tag_front)mod256 < (tag_rear -tag_front) mod256 (12-8) 
在 Cornus 卡 中 ，tag_queue 队列 的 Entry 由 许多 字段 组 成 ， 在 这 些 字 段 中 “L” 和 “U” 
位 对 于 Capric 卡 有 意义 。 其 中 U 为 Used 位 ， 当 该 位 为 1 时 ， 表 示 对 应 Entry 正在 被 使 用 ， 
为 0 时 表示 没有 被 使 用 ， 而 工 为 Last 位 ， 当 该 位 为 1 时 ， 表 示 对 应 Entry 保存 DMA 操作 最 
后 一 个 存储 髓 读 请 求 TLP。 这 些 位 的 详细 解释 见 下 文 。 


Entry 0 SU tag_front Entry 0 Entry 0 Entry 0 
Entry 1 tag_rear Entry 1 Entry 1 Entry 1 [<— tag rear 
Entry 2 Entry 2 Entry 2 Entry 2 


1 1 1 1 
Entry n ET tag_front Entryn Entry n 
1 " 1 1 人 1 tag_rear 1 I 1 1 
Entry 254 Entry 254 Entry 254 tag_rear Entry 254 [<— tag_front 
Entry 255 Entry 255 Entry 255 tag_front Entry 255 
a) b) c) d) 
图 12-3 循环 队列 tag_queue 的 组 成 结构 
a) tag_queue 的 初始 化 b) tag_queue 为 空 c) tag_queue 为 满 d) tag_queue 中 的 有 效 Entry 
2.Capric 卡 发 送 存 储 器 读 请 求 TLP 
Capric 卡 发 送 存储 器 读 请 求 TLP 与 发 送 存储 器 写 TLP 的 步 又 较为 类 似 ， 只 是 存储 器 读 请 
求 不 含有 Data Payload， 存 储 器 读 请 求 TLP 的 格式 如 图 6 - 8 所 示 。 与 存储 器 写 请 求 TLP 相 


加 “Comnus 卡 是 一 个 基于 PCIe 总 线 的 以 太 网 卡 ， 支 持 多 通路 DMA 读 写 操作 。 
晶 ” 因为 tag_queue 队列 的 长 度 为 256。 
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比 ， 存 储 需 读 报 文 多 了 两 个 字段 分 别 为 Requester ID 字段 和 Tag 字段， 这 两 个 字段 合 称 为 
Transaction ID 字段 ， 该 字段 的 结构 如 图 6 -9 所 示 。 

从 第 6.2.1 节 中 ， 可 以 获知 存储 器 读 请 求 TLP 使 用 地 址 路 由 方式 ，Capric 卡 将 存储 器 读 
请 求 TLP 发 送 给 RC 时 ， 并 不 需要 使 用 Transaction ID 字段 进行 ID 路 由 。 但 是 存储 器 读 完 成 
TLP 需要 使 用 ID 路 由 方式 进行 传送 ， 因 而 需要 使 用 Capric 卡 的 Transaction ID 字段 将 存储 器 
读 完 成 TLP 发 送 给 Capric 卡 。 

在 PCIe 总 线 中 ， 每 一 个 数据 传送 都 有 唯一 的 Transaction ID ，Transaction ID 由 Requester 
ID 和 Tag 字段 组 成 ， 其 中 Requester ID 由 HOST 处 理 器 在 系统 初始 化 时 设置 。Capric 卡 需 要 
记录 这 个 Requester ID ， 以 便 传 送 存 储 需 读 请 求 TLP。 

在 存储 器 读 请 求 TLP 中 其 他 字段 的 设置 与 存储 器 写 请 求 TLP 类 似 ， 这 些 字 段 的 设置 参 
见 上 文 。 其 中 存储 器 读 请 求 TLP 的 Fmt 字段 为 0b00/0bp01， 表 示 使 用 3DWX4DW 的 TLP 头 ， 
而 且 不 带 数 据 ; 而 Type 字段 与 存储 器 写 请 求 TLP 的 type 字段 相等 ， 都 为 0b0000。 在 PCle 
总 线 中 ， 存 储 器 写 报 文 一 定 带 有 数据 ， 而 存储 器 读 请 求 一 定 不 带 数 据 ， 这 是 PCIe 总 线 区 分 
存储 器 读 请 求 TLP 和 存储 器 写 TLP 的 方法 。 在 设计 中 ，Capric 卡 使 用 4DW 的 读 请 求 TLP 
头 ， 因 为 Capric 卡 内 部 使 用 64b 数据 总 线 ， 使 用 4DW 的 报 文 头 便于 对 界 处 理 ; 而 存储 带 读 
完成 报 文 只 能 使 用 3DW 的 报 文 头 ， 这 为 Capric 卡 的 设计 也 带 来 了 一 些 困难 。 

在 存储 器 读 请 求 TLP 中 ， 需 要 重点 处 理 的 字段 是 Tag。 在 PCIe 总 线 中 ， 每 个 设备 都 有 
唯一 的 Requester ID ， 而 且 每 一 次 数据 传送 使 用 不 同 的 Transaction ID ， 在 一 次 数据 传送 没有 
完成 之 前 ， 其 他 数据 传送 不 能 使 用 相同 的 Transaction ID 。 在 PCIe 总 线 中 ,使 用 Tag 字段 区 
分 不 同 的 Transaction ID ， 因 为 对 于 同一 个 PCIe 设备 发 出 的 TLP，Requester ID 字段 都 是 相同 
的 ， 只 有 Tag 字段 不 同 。 

当 Capric 卡 向 RC 发 送 存 储 器 读 请 求 TLP 时 ， 将 从 tag_queue 中 选择 一 个 未 用 的 Tag 资 
源 ， 当 Capric 卡 收 齐 与 “存储 器 读 请 求 TLP” 对 应 的 “存储 器 读 完成 TLP”2 后 ， 将 释放 这 
个 Tag 资源 ， 之 后 其 他 存储 器 读 请 求 TLP 可 以 使 用 这 个 Tag。 

为 此 Capric 卡 需 要 使 用 一 组 数据 缓冲 维护 这 个 Tag 字段 。 在 PCle 总 线 中 ，Tag 字段 为 5 或 
者 8 位 ， 如 果 使 能 了 Phantom 功能 ， 一 个 PCIe 设备 可 以 使 用 更 多 的 Tag 资源 ， 详 见 第 4.3.2 
节 。 在 Capric 卡 中 ， 并 没有 使 能 Phantom 功能 ， 而 且 使 用 的 Tag 字段 为 8 位 ， 即 Device Capa- 
bility 寄存 需 的 Extended Tag Field Supported 位 为 1， 该 寄存 器 的 详细 描述 见 第 4. 3.2 节 。 

Capric 卡 使 用 tag_rear 指针 从 tag_queue 队列 中 获得 未 用 的 tag 资源 并 设置 tag_queue 
中 对 应 Entry 的 站 和 1 位。Capric 卡 发 送 存储 器 读 请 求 TLP 时 ， 首 先 需 要 判断 本 次 DMA 读 
操作 一 共 需 要 向 RC 发 送 几 个 存储 需 读 请 求 TLP。 在 Capric 卡 中 ， 一 次 DMA 读 可 以 使 用 的 
最 大 传送 单位 为 2047B， 该 值 超过 Capric 卡 的 Max_Read_Request_Size 参数 (512 B) ， 因 此 
Capric 卡 发 送 存 储 器 读 请 求 TLP 时 需要 进行 拆 包 操 作 。 

如 果 Capric 卡 读 取 A(A, Ayw... A, A,) ~B(B, By...B, B,) 这 段 数据 区 域 时 ， 需 要 首先 计 
算 每 段 数 据 区 域 的 实际 长 度 M， 该 长 度 的 计算 与 公式 12-4 相同 。 如 果 M 小 于 或 等 于 512 B， 
需要 继续 检查 这 段 数据 区 域 是 否 超过 4 KB 边界 ， 如 果 超 过 需要 将 这 段 数 据 区 域 分 为 A ~ 


一 个 存储 器 读 请 求 TLP 可 能 对 应 若干 个 存储 器 读 完成 TLP。 
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Tailioe(A) 和 Heado(B) ~B 这 两 段 数据 区 域 进行 读 操 作 。 

如 果 M 大 于 512 B，Capric 卡 需 要 进行 拆 包 处 理 ， 将 A ~B 这 段 数 据 区 域 分 割 为 若干 个 
数据 区 域 ， 其 中 每 一 段 数 据 区 域 的 Length 字段 不 超过 0x80， 而 且 为 512B 对 界 。Capric 卡 使 
用 的 拆 包 方 法 如 下 所 示 。 

第 1 个 存储 器 读 请 求 TLP 对 应 的 数据 

第 2 个 存储 器 读 请 求 TLP 对 应 的 数据 


域 : Ai Ai .AI Ao ~ Tails, (A) 


区 
区 域 : Heads (A +512) ~ Tails, (A +512) 


第 n 个 存储 器 读 请 求 TLP 对 应 的 数据 区 域 : Headsi, (A +n x512) ~Tails,(A+ nx512) 


最 后 1 个 存储 器 读 请 求 TLP 对 应 的 数据 区 域 : Heads,(B) ~ BsBy... Bi B。 

以 上 这 些 数据 区 域 的 M 都 小 于 0x80， 而 且 都 不 会 跨越 512 B 边界 ， 因 此 也 不 可 能 超过 4 KB 
边界 。 使 用 以 上 拆 包 方 法 ，Capric 卡 可 以 获得 若干 个 M 小 于 或 等 于 0x80 的 数据 区 域 ， 因 此 Capric 
卡 可 以 使 用 一 个 存储 器 读 请 求 从 主 存储 器 获得 以 上 每 段 数据 区 域 对 应 的 数据 。Capric 卡 使 用 4DW 
的 TLP 头 ， 其 格式 如 图 12-4 所 示 。 


+0 4 42 +3 
7|6|5 4~0 7| 6~4 3~0 7|16|5~43~2|1~0 7~0 
Byte0 |R| Fmt Type RI TC R 避 | 咏 | Attr | AT Length 
Byte 4 Requester ID Tag Last DW BE | First DW BE 
Byte 8 Address[63:32] 
Byte 12 Address[31:2] PH 


图 12-4 存储 器 读 请 求 TLP 头 格式 

Capric 卡 向 RC 发 送 这 些 存储 器 读 请 求 TLP 的 详细 步骤 如 下 。 

(1) 组 织 存储 器 读 请 求 TLP， 其 中 Byte 0 中 的 字段 、First/Last DW BE 字段 和 Address 字 
段 与 存储 器 写 请 求 TLP 的 对 应 字段 相同 ， 本 小 节 对 此 不 做 详细 描述 。 而 Requester ID 字段 由 
Host 处 理 需 在 初始 化 时 设置 。 

(2) Capric 卡 从 tag_queue 队列 中 获得 tag 字段 ， 首 先 通过 公式 12-6 判断 tag_queue 队列 
是 否 有 可 用 tag 资源 ， 如 果 没 有 则 循环 等 待 公式 12-6 成 立 ; 如果 有 可 用 tag， 则 继续 。 在 
Capric 卡 中 ，Address[ 63:2] 较 小 的 存储 器 读 请 求 使 用 的 Tag 字段 也 较 小 。 

(3) 当前 存储 器 读 请 求 使 用 tag_rear 作为 tag 字段 ， 同 时 置 tag_queue[tag_rear].U 为 1， 
表示 当前 Entry 已 被 使 用 。 

(4) 在 一 次 DMA 读 操 作 时 ，Capric 卡 可 能 需要 进行 拆 包 操作 。 如 果 当 前 存储 央 读 请 求 
TLP 是 最 后 一 个 TLP， 则 将 tag_queue[ tag_rear].L 位 置 为 1， 否则 置 为 0。 

(5) 将 tag_rear 赋值 为 (tag_rear +1) mod 256， 然 后 发 送 该 存储 器 读 请 求 TLP。 如 果 工 
位 为 0 时 转 (1) ， 表 示 与 当前 DMA 操作 对 应 的 存储 器 读 请 求 TLP 还 没有 发 送 完毕 ; 否则 结 
束 存储 器 读 请 求 报 文 的 发 送 。 

Capric 卡 发 送 存 储 器 读 请 求 TLP 时 ， 还 需要 考虑 一 个 细节 问题 。 在 PCIe 总 线 中 ，EP 为 
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CplH 和 CplD 提供 的 Credit 为 0， 即 Infinite Credit， 详 见 第 9. 3. 2 节 。 这 意味 着 EP 每 发 送 一 
个 存储 器 读 请 求 ， 必 须 为 对 应 的 存储 器 读 完成 的 报 文 头 和 数据 预 留 缓冲 。 

假设 Capric 卡 连续 向 RC 发 送 了 256 个 存储 器 读 请 求 TLP， 其 中 每 个 存储 器 读 请 求 TLP 
访问 的 数据 区 域 为 512B， 而 在 RC 发 送 的 存储 器 读 完 成 TLP 中 一 次 只 能 携带 64B。 此 时 即便 
不 考虑 对 界 的 问题 ，Capric 卡 也 需要 为 存储 器 读 完成 预 留 较 大 的 缓冲 空间 ， 该 空间 由 两 部 分 
组 成 ， 如 下 所 示 。 

(1) 预 留存 储 器 读 完成 TLP 头 的 空间 大 小 为 8192 B (256 x512 x4/64)。 

(2) 预 留存 储 器 读 完成 TLP 数据 的 空间 大 小 128 KB (256 x512 B)。 

在 硬件 设计 中 ， 为 了 提高 DMA 读 的 数据 传送 效率 ， 还 可 以 使 能 Phantom 功能 ， 此 时 EP 
能 够 发 送 的 存储 器 读 请 求 TLP 更 多 。 如 果 EP 经 过 若干 级 Switch 后 ， 才 能 到 达 RC， 此 时 RC 
可 能 正在 处 理 其 他 EP 的 存储 器 读 请 求 而 不 会 立即 处 理 这 些 存储 器 读 请 求 ， 此 时 该 EP 可 能 
长 时 间 不 能 收 到 存储 器 读 完成 TLP， 从 而 无 法 释放 预 留 的 数据 缓冲 。 因 此 EP 可 能 会 因为 没 
有 数据 缓冲 ， 而 无 法 继续 发 送 存储 器 读 请 求 TLP。 

实际 上 ， 硬 件 为 存储 器 读 完 成 报 文 预 留 的 数据 缓冲 是 有 限 的 ， 一 般 不 会 预 留 136 KB 大 
小 的 空间 , 在 LogiCORE 中 ， 为 CplH 预 留 的 缓冲 单元 为 33 ~ 36 个 ， 而 为 CplD 中 的 数据 预 
留 的 缓冲 为 2176 ~2304 B。 

由 此 可 以 发 现 如 果 RC 没有 及 时 地 将 存储 器 读 完成 TLP 发 送 回 来 ，Capric 卡 最 多 在 连续 
发 送 33 个 存储 器 读 请 求 后 (假设 存储 器 读 请 求 使 用 4DW 的 报 文 涉 )， 就 因为 无 法 为 存储 融 
读 完 成 的 报 文 头 提供 足够 的 缓冲 而 不 能 继续 发 送 ;， 此 外 如 果 每 个 存储 器 读 请 求 所 访问 的 数据 
区 域 都 是 512 B，Capric 卡 最 多 在 连续 发 送 4 个 这 样 存储 器 读 请 求 后 ， 就 不 能 继续 发 送 这 样 
的 存储 器 读 请 求 ， 从 而 造成 发 送 流 水 线 的 中 断 。 

由 此 可 以 发 现 ， 在 LogiCORE 中 ， 由 于 预 留 的 缓冲 有 限 ，Capric 卡 在 使 用 PCIe 总 线 要 求 
的 Infinite Credit 机 制 时 ， 将 因为 预 留 缓冲 不 足 而 造成 流水 线 的 中 断 。 为 此 LogiCORE 提供 了 
三 种 流量 控制 机 制 ， 这 三 种 流量 控制 机 制 在 重 构 LogiCORE 时 选择 使 用 ， 系 统 软件 不 能 通过 
修改 寄存 器 动态 配置 这 些 流 控 方 式 。 

(1) Infinite Credit 

该 方式 与 PCle 总 线 规范 兼容 。 如 果 Capric 卡 使 用 Infinite Credit 方式 ， 当 LogiCORE 内 
部 的 接收 缓冲 不 足 时 ，Capric 卡 不 能 向 RC 发 送 存 储 器 读 请 求 报 文 。 根 据 上 文 的 讨论 ， 由 于 
LogiCORE 内 部 的 接收 缓冲 不 足 ， 因 此 使 用 该 方式 在 某 种 程度 上 ， 将 造成 DMA 读 流 水 线 的 中 
断 ， 从 而 影响 DMA 读 的 效率 。 

(2) One Posted/ Non- Posted Header 

该 方式 与 PCIe 总 线 规范 不 兼容 ， 使 用 这 种 方式 时 ，EP 每 次 为 上 游 端 口 发 送 的 Posted 请 
求 和 Non- Posted 请 求 提供 最 小 的 Credit， 相 当 于 EP 每 一 次 只 能 发 送 一 个 存储 器 读 请 求 TLP， 
而 得 到 与 之 对 应 的 存储 器 读 完 成 TLP 后 ， 再 提交 下 一 个 存储 器 读 请 求 TLP。 使 用 这 种 方法 将 
严重 影响 DMA 读 的 效率 。LogiCORE 提供 的 这 种 方法 可 能 是 用 于 调试 目的 。 在 正常 情况 下 设 
计 者 不 应 该 使 用 这 种 方式 。 

(3) Non-Infinite Credit 

该 方式 与 PCle 总 线 规范 不 兼容 ， 使 用 这 种 方式 时 ，EP 并 没有 给 上 游 端口 提供 无 限量 的 
Credit， 而 是 根据 预 留 接收 缓冲 的 实际 使 用 情况 ， 为 上 游 端 口 提供 Credit。Capric 卡 采 用 这 种 
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方式 ,发 送 存 储 器 读 请 求 TLP 时 ， 并 不 会 为 存储 器 读 完 成 TLP 事先 预 留 接收 缓冲 ， 从 而 在 
发 送 存储 器 读 请 求 TLP 时 ， 并 不 会 因为 接收 缓冲 不 足 而 被 中 断 ， 因 此 提高 了 Capric 卡 发 送 
存储 器 读 请 求 TLP 的 效率 。 

LogiCORE 在 接收 存储 器 读 完 成 报 文 时 ， 将 根据 预 留 缓冲 的 实际 大 小 为 对 端 提 供 Credit。 
虽然 采用 这 种 方法 与 PCIe 总 线 规范 要 求 的 Infinite Credit 并 不 兼容 。 但 是 使 用 这 种 方法 避免 
了 在 发 送 存储 器 读 请 求 时 ， 因 为 接收 缓冲 不 足 而 引发 的 流水 线 中 断 ， 从 而 Capric 卡 可 以 连 
续 发 送 多 个 存储 器 读 请 求 ， 无 论 是 否 具有 足够 的 接收 缓冲 。 

而 Capric 卡 将 以 较 快 的 速度 从 LogiCORE 的 预 留 缓冲 中 获得 数据 ， 因 此 在 多 数 时 间 里 ， 
不 会 因为 预 留 缓冲 被 对 端 设 备 耗 尽 而 引发 接收 流水 线 的 中 断 。 因 此 在 实际 设计 中 ，Capric 卡 
使 用 了 这 种 流量 控制 方式 。 

3. Capric 卡 接收 存储 器 读 完成 TLP 

在 PCle 总 线 中 ，EP 发 出 的 存储 器 读 请 求 可 以 超越 之 前 的 存储 器 读 请 求 ， 而 且 当 存储 器 
完成 报 文 使 用 的 Transaction ID 不 同时 ， 存 储 器 读 完成 TLP 也 可 能 超越 之 前 的 存储 器 读 完成 
TLP， 这 将 造成 存储 器 读 完成 TLP 乱 序 到 达 Capric 卡 。 

Capric 卡 必 须 注意 处 理 这 个 乱 序 问题 。 下 面 举例 说 明 这 个 序 的 问题 ， 假 设 Capric 卡 向 处 
理 絮 的 0x1000 ~0xl1FF 这 段 数据 区 域 发 送 存储 器 读 请 求 TLP，RC 将 通过 存储 器 读 完 成 TLP 
向 Capric 卡 传递 数据 。 如 果 这 个 RC 使 用 的 RCB 为 64 B， 则 RC 可 以 使 用 4 个 存储 器 读 完 成 
TLP 发 送 这 些 数据 ， 如 图 12-5 所 示 。 


0x1000 ~ 0x11FF ,2 二: 二 -小 
RC i 存储 器 读 请 求 TLP 


Capric 卡 
了 DR > > Ox1180 ~ Oxl11FF|Ox1100 ~ Ox117F|0x1080 ~ 0x10FF|0x1000 ~ 0x107F 
支 完成 TLP 
存储 器 读 完成 Tag0 Tag0 Tag0 Tag0 


4 3 2 1 
图 12-5 使 用 一 个 存储 器 读 TLP 对 0x100 ~0x11FF 进行 DMA 读 操作 

其 中 第 1 个 存储 器 读 完成 TLP 的 数据 来 自 0x1000 ~ 0x107F 这 段 数据 区 域 ; 第 2 个 存储 
器 读 完成 TLP 的 数据 来 自 0x1080 ~0xl0FF 这 段 数据 区 域 ; 第 3 个 存储 器 读 完 成 TLP 的 数据 
来 自 0x1100 ~0x117F 这 段 数据 区 域 ;而 第 4 个 存储 器 读 完成 TLP 的 数据 来 自 0x1180 ~ 
0x11FF 这 段 数据 区 域 。 在 这 种 情况 下 ， 存 储 器 读 完 成 报 文 将 按 序 到 达 Capric 卡 ， 从 而 并 不 
会 对 Capric 卡 的 硬件 逻辑 造成 影响 。 

如 果 Capric 卡 使 用 2 个 存储 器 读 请 求 TLP 向 处 理 器 的 0x1000 ~0xl1FF 这 段 数据 区 域 发 
起 存储 器 读 请 求 。 其 中 第 1 个 存储 器 读 请 求 TLP (tag 0) 向 处 理 器 的 0x1000 ~ 0x10FF 这 段 
数据 区 域 发 起 存储 器 读 请 求 ， 而 第 2 个 存储 器 读 请 求 TLP (tag 1) 向 处 理 器 的 0x1100 ~ 
0x11FF 这 段 数 据 区 域 发 起 存储 器 读 请 求 。 此 时 来 自 RC 的 存储 器 读 完成 报 文 可 能 乱 序 到 达 
Capric 卡 ， 如 图 12-6 所 示 。 

此 时 RC 依然 使 用 4 个 存储 器 读 完 成 TLP 向 Capric 卡 发 送 这 些 数据 ， 但 是 由 于 序 的 问 
题 ， 这 4 个 存储 器 读 完成 TLP 可 能 以 2 种 不 同 的 顺序 发 向 Capric 卡 。 当 然 RC 还 可 以 以 其 他 
顺序 向 Capric 卡 发 送 这 些 TLP， 本 节 并 不 列 出 所 有 可 能 的 顺序 。 

(1) 第 1 种 序 

。 第 1 个 存储 器 读 完成 TLP 的 数据 来 自 0x1000 ~0x107F 这 段 数 据 区 域 (tag 0)。 
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0x1100 一 0x11FF|0x1000 一 0x10FF Pr 
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存储 器 读 完成 TLP Ox1080 ~ 0x10FF|0x1180 ~ 0xl11FEF|0x1000 ~ 0x107F|0x1100 ~ 0x117F 
第 2 种 序 Tag0 Tagl Tag0 Tagl 
4 3 和 2 1 


图 12-6 使 用 两 个 存储 器 读 TLP 对 0x100 ~0xl1FF 进行 DMA 读 操作 


。 第 2 个 存储 器 读 完成 TLP 的 数据 来 自 0x1080 ~0x10FF 这 段 数据 区 域 (tag 0)。 

e 第 3 个 存储 器 读 完成 TLP 的 数据 来 自 0x1100 ~0x117F 这 段 数 据 区 域 (tag 1)。 

。 第 4 个 存储 器 读 完成 TLP 的 数据 来 自 0x1180 ~0x11FF 这 段 数据 区 域 (tag 1) 。 

(2) 第 2 种 序 

。 第 1 个 存储 器 读 完成 TLP 的 数据 来 自 0x1100 ~0x117F 这 段 数据 

。 第 2 个 存储 器 读 完 成 TLP 的 数据 来 自 0x1000 ~0x107F 这 上 段 数 据 

e 第 3 个 存储 器 读 完成 TLP 的 数据 来 自 0x1180 ~0xl1FF 这 段 数据 区 域 (tag 1) 。 

。 第 4 个 存储 器 读 完成 TLP 的 数据 来 自 0x1080 ~0x10FF 这 段 数据 区 域 (tag 0) 。 

这 个 乱 序 问题 为 Capric 卡 的 DMA 读 机 制 的 设计 带 来 了 不 小 的 麻烦 。 因 为 在 “第 2 种 
序 ” 的 情况 下 ， 先 发 出 去 的 存储 器 读 请 求 TLP， 后 接收 到 与 之 对 应 的 存储 器 完成 报 文 。 不 过 
值得 庆幸 的 是 ， 对 于 一 个 存储 器 读 请 求 TLP， 其 对 应 的 存储 器 完成 报 文 虽然 也 有 多 个 ， 但 是 
这 些 报 文 将 以 地 址 顺序 先后 到 达 。 如 向 0x1000 ~ 0x10FF 这 段 数据 区 域 发 送 的 存储 器 读 请 求 ， 
其 存储 器 完成 报 文 虽然 被 分 解 为 两 个 , 但 一 定 是 传送 0x1000 ~ 107F 这 段 区 域 的 存储 器 读 完 
成 TLP 率先 到 达 ， 而 传送 0x1080 ~0x10FF 这 段 区 域 的 存储 器 读 完成 TLP 随后 到 达 。 

在 Capric 卡 的 设计 中 必须 考虑 这 个 乱 序 问题 ， 因 为 Capric 卡 进 行 DMA 读 操作 时 ， 所 读 
取 的 数据 区 域 可 能 超过 Max_Read_Request_Size 参数 ， 此 时 Capric 卡 对 这 段 数据 区 域 进行 
DMA 读 时 ， 必 须 向 RC 发 出 多 个 存储 器 读 请 求 TLP， 参 见 上 文 。 

与 Capric 卡 发 送 存储 器 读 请 求 TLP 相 比 ，Capric 卡 处 理 存 储 器 读 完 成 TLP 的 过 程 更 为 
复杂 。 当 Capric 卡 收 到 来 自 RC 的 存储 器 完成 报 文 后， 需要 进行 一 系列 检查 。 存 储 器 读 完 成 
TLP 的 格式 如 图 12-7 所 示 。 

Capric 卡 接收 到 存储 器 读 完 成 TLP 后 ， 首 先 需 要 检查 报 文 涉 。 其 中 Fmt 字段 必须 为 
0b010 ，Type 字段 必须 为 0b01010。 除 此 之 外 Capric 卡 还 需要 进行 以 下 检查 。 

(1) 存储 器 读 完成 TLP 的 Requester ID 字段 必须 与 Capric 卡 的 Requester ID 字段 相等 。 
否则 该 存储 硕 读 完成 TLP 被 认为 是 “Unexpected Completion” 报 文 ，Capric 卡 需 要 丢弃 该 存 
储 器 读 完成 TLP， 并 将 ERR 寄存 器 的 UC 位 置 1。 

(2) 检查 存储 器 读 完 成 TLP 的 Status 字段 ， 如 果 Status 字段 不 为 0b000， 则 表示 接收 到 
的 TLP 出 现 错误 。 如 果 Status 字段 为 0b001 或 者 0b100 时 ，Capric 卡 需 要 丢弃 该 存储 器 读 完 
成 TLP， 并 将 ERR 寄存 器 的 相应 位 置 1。 

(3) 检查 存储 器 读 完 成 TLP 的 Tag 字段 ， 确 认 当 前 报 文 是 否 与 已 经 发 出 的 存储 器 读 请 求 
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图 12-7 存储 需 读 完成 TLP 


TLP 对 应 ， 检 查 方法 如 公式 12-8 所 示 。 

(4) 此 外 Capric 卡 还 需要 检查 EP 位 ，TD 位 、TC 字段 和 Attr 字段 。 

Capric 卡 的 接收 部 件 成 功 完成 这 些 检 查 之 后 ， 将 从 存储 器 读 完成 TLP 中 获取 数据 。PCIe 
总 线 规定 ， 一 个 存储 器 读 请 求 TLP， 可 以 对 应 多 个 存储 器 读 完成 TLP。 这 为 Capric 卡 的 设计 
带 来 了 一 定 的 困难 ， 为 此 Capric 卡 需要 将 存储 器 读 完 成 TLP 全 部 收 齐 后 ， 才 能 释放 相应 的 
Tag 资源 ， 最 后 将 tag_queue 对 应 Entry 的 U 位 和 工 位 清 零 。 

存储 器 读 完 成 报 文 虽然 可 能 有 多 个 ， 但 是 这 些 报 文 将 以 地 址 顺序 先后 到 达 。 因 此 Capric 
卡 首先 需要 分 析 Tag 字段 ， 从 而 确定 当前 存储 器 读 完 成 TLP 与 哪个 存储 器 读 请 求 TLP 对 应 。 
其 中 第 1 个 存储 器 读 完成 TLP 与 存储 器 读 请 求 TLP 起 始 地 址 对 应 ， 之 后 的 存储 器 读 完成 TLP 
将 地 址 顺序 依次 到 达 。 假 定向 [ A; A . . A, A,~B,B;..B, B,] 这 段 数据 区 域 发 起 存储 器 
读 请 求 时 ，RC 将 发 送 多 个 存储 器 读 完 成 TLP， 并 以 下 列 顺序 到 达 。 
[AAAIA ~ Tail(A AN . .AIA)] 
[Head (Ay Ay... AiAo +64) ~Tail ( Ay As0... A, A,+64) ] 


[Head (Asy Aso... AAs +n*64) ~ Tailo (Ay Ay... Al Ao +n*64)] 


[ Headw, (B;, By... BB,) ~ BBy...B, Bo] 

当然 RC 也 可 能 向 Capric 发 送 一 个 存储 器 读 完成 TLP,， 传递 [ As Aio. . . AiAo ~ Bsi By 
... BBo] 数据 区 域 中 的 所 有 数据 。 无 论 这 些 存储 器 读 完成 TLP 以 什么 样 的 形式 到 达 ，Cap- 
ric 卡 都 需要 正确 接收 这 个 存储 器 读 完成 TLP。 

Capric 卡 首先 分 析 存 储 器 读 完成 TLP 的 Length 字段 ， 在 该 字段 中 存放 当前 存储 器 读 完 
成 TLP 的 长 度 ， 值 得 注意 的 是 Length 字段 所 存放 的 长 度 ， 可 能 超过 这 个 存储 器 完成 报 文 
的 包含 的 有 效 数 据 长 度 ， 因 为 地 址 A,,A;. ..A, A, 很 可 能 不 是 1DW 对 界 ， 而 Length 字段 
存放 的 最 小 数据 单位 为 1 DW。 此 时 Capric 卡 必须 正确 识别 存储 器 读 完成 TLP 中 Data0 ( 即 
第 一 个 双 字 ) 中 包含 的 有 效 数 据 ， 以 及 Data( Length-1) ( 即 最 后 一 个 双 字 ) 中 包含 的 有 
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在 RC 发 送 给 Capric 卡 的 多 个 存储 器 读 完成 TLP 中 ， 只 有 第 1 个 存储 器 读 完成 TLP 所 对 
应 的 存储 天 区 域 的 起 始 地 址 可 能 不 是 DW 对 界 ; 而 如 果 存 在 其 他 存储 器 读 完 成 TLP， 那 么 这 
些 报 文 所 对 应 存储 器 区 域 的 起 始 地 址 至 少 是 64 B 对 界 的 ， 也 可 能 是 128B 对 界 的 2 。 

但 是 存储 器 读 完成 TLP 并 不 含有 First DW BE 字段 ， 此 时 Capric 卡 需要 使 用 存储 器 读 完 
成 TLP 中 的 Lower Address 字段 识别 Data0 中 的 有 效 字 节 。 

在 第 1 个 存储 器 读 完成 TLP 中 ，Lower Address[1:0] = A,Au， 对 于 其 他 存储 器 读 完 成 
TLP， 其 Low Address[1:0] =0b00。 因 此 通过 Lower Address 字段 ， 可 以 识别 Data0 中 第 一 个 
有 效 数 据 ， 即 Data0[ A Au ] 为 第 一 个 有 效 数据 。 

存储 器 读 完成 TLP 并 没有 设置 Last DW BE 字段 ，Capric 卡 需 要 使 用 Byte Count 和 Lower 
Address 字段 联合 识别 Data( Length-1) 中 的 有 效 数 据 。 如 果 当 前 存储 器 读 完成 TLP 不 是 最 后 
一 个 TLP ,那么 其 Data( Length-1) 中 的 数据 全 部 有 效 。 因 为 PCIe 总 线 规定 ,如 果 RC 为 1 个 存 
储 器 读 请 求 TLP 发 送 多 个 存储 器 读 完成 TLP, 如 果 这 个 存储 器 读 完成 TLP 不 是 最 后 一 个 报 文 ， 
那么 其 结束 地 址 必须 64 B 对 界 。 

如 果 当 前 存储 硕 读 完成 TLP 不 是 第 1 个 TLP, 那 么 其 Lower Address[ 1:0] =0b00。 在 这 两 
种 情况 下 ,Data( Length-1) 中 的 有 效 数 据 较 易 计算 。 但 是 有 一 个 特例 情况 ,就 是 RC 只 发 出 了 
一 个 存储 器 读 完成 TLP 给 Capric 卡 ,此 时 这 个 TLP 既是 第 一 个 存储 器 读 完成 TLP 也 是 最 后 一 
个 存储 器 读 完成 TLP。 但 是 无 论 是 上 述 哪 种 方式 ,依然 存在 计算 Data( Length-1) 中 的 有 效 数 
据 的 通用 方法 ,如 公式 12-9 所 示 。 

ObX,X, = LowAddress[ 1 :0 | + ByteCouni[1:0] -0001 (12-9) 

其 中 Data( Length -1)[X,X] 为 存储 右 读 完成 TLP 中 最 后 一 个 有 效 数据 。Capric 卡 计算 
完毕 存储 器 读 完成 TLP 的 Data0 和 Data( Length-1) 中 的 有 效 数据 后 ， 还 需要 判断 当前 存储 器 
读 完成 TLP 是 不 是 RC 发 出 的 最 后 一 个 与 当前 Tag 对 应 的 存储 器 读 完成 TLP。 为 直观 起 见 ， 
以 图 12-8 为 例 说 明 如 何 计算 当前 存储 器 读 完成 TLP 是 否 为 最 后 一 个 报 文 。 


Start Address Byte Count End Address 


0b00 人 B ObFF 


图 12-8 ”最 后 一 个 存储 器 读 完 成 TLP 的 判断 方法 


如 上 图 所 示 ，Start Address 为 存储 右 读 完成 TLP 的 起 始 地 址 ， 而 End Address 为 存储 器 读 
完成 TLP 的 结束 地 址 。 在 一 个 存储 器 读 完成 TLP 中 ， 我 们 无 法 得 到 Start Address 和 End Ad- 
dress 的 确切 的 数值 ， 因 为 存储 器 读 完 成 TLP 不 包含 Address 字段 ， 但 是 可 以 得 到 阴影 A 和 阴 
影 B 的 大 小 。 其 中 阴影 A 的 大 小 为 Low Address[1:0] ， 而 阴影 B 的 大 小 为 Ob11 -0bX,X。。 

如 果 当 前 TLP 的 Byte Count 字段 加 上 阴影 A 和 B 的 大 小 与 Length x4 相等 ， 即 公式 
12-10 成 立时 ， 该 TLP 为 RC 发 给 Capric 卡 的 最 后 一 个 存储 器 读 完成 TLP。 
(Byte Count + Low Address[ 1 :0 ] +0011 ~O0bX,X,) = Length<2 (12-10) 


荆 


加 采用 哪 种 对 界 方式 与 RCB 参数 相关 ， 不 同 处 理 器 使 用 的 RCB 参数 并 不 相同 。 
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请 读者 重新 阅读 第 6. 3. 2 节 ， 深 入 理解 Byte Count 参数 的 含义 ， 以 加 深 对 公式 12-10 的 
理解 。 在 Capric 卡 的 硬件 设计 中 ， 需 要 使 用 该 公式 识别 最 后 一 个 到 达 的 存储 需 读 完成 TLP。 

在 Capric 卡 接收 到 最 后 一 个 存储 器 完成 TLP 之 后 ， 将 完成 一 次 存储 器 读 请 求 。 当 最 后 
一 个 存储 器 读 请 求 完成 后 ， 将 完成 一 次 DMA 读 操作 。Capric 卡 接收 存储 器 读 完 成 TLP 的 详 
细 步 又 如 下 所 示 。 

(1) 首先 进行 报 文 检 查 。 如 果 通 过 这 些 检查 后 ， 将 从 存储 器 读 完成 报 文中 获得 数据 填 人 
相应 SRAM 的 对 应 区 域 中 。 

(2) DMA 读 逻 辑 通 过 存储 器 读 完 成 TLP 的 Tag 字段 在 tag_queue 中 查找 对 应 的 Entry。 
如 果 当 前 存储 器 读 完 成 是 最 后 一 个 TLP， 将 该 Entry 的 U 位 清 零 。 此 时 如 果 该 Entry 的 工 位 
为 1， 表 示 本 次 DMA 读 结束 ， 并 向 处 理 器 提交 中 断 请 求 ， 同 时 清除 工 位 ， 并 置 相应 的 中 断 
状态 寄存 器 。Cormus 卡 支持 多 路 并 发 的 DMA 读 操 作 ， 因 此 需要 在 Entry 中 设置 工 位 。 

(3) DMA 读 模 块 可 能 会 更 新 tag_front 指针 ， 如 果 Tag 字段 不 等 于 tag_front 指针 ， 读 模 
块 不 能 更 新 tag_front， 而 仅 是 将 对 应 Entry 的 UU 位 清 零 ， 如 果 相 同 则 将 tag_front 更 新 为 (tag 
_front +1) mod 256 ， 同 时 将 U 位 清 零 。 

(4) 之 后 DMA 读 模 块 继 续 判 断 tag_queue[ tag_front |] 的 UU 位 是 否 为 0。 如 果 该 位 为 0, 将 
tag_front 更 新 为 (tag_front +1) mod 236， 然 后 继续 判断 Tag_queue[ tag_front |] 的 UU 位 是 否 为 
0， 直 到 公式 12-7 成 立 ， 或 者 Tag_queue[ tag_front] 的 UU 位 为 1。 


12.2.3 ”Capric 卡 的 中 断 请 求 


Capric 卡 支 持 两 种 中 断 请 求 方式 ， 一 种 是 Legacy INTx 方式 ， 另 一 种 是 MSI 中 断 方式 。 
Capric 卡 需 要 向 RC 发 送 两 个 Legacy INTx 中 断 消 息 ， 一 个 是 Assert INTx， 男 一 个 是 Deassert 
INTx， 以 实现 Legacy INTx 中 断 方 式 。 第 6. 3. 4 节 详 细 介 绍 了 这 种 中 断 请 求 方式 。 这 种 中 断 
请 求 方式 虽然 使 用 了 INTx 消息 ， 但 是 其 原理 与 电 平 触发 方式 类 似 ， 而 MSI 中 断 方式 的 工作 
原理 与 边沿 触发 方式 类 似 。 因 此 系统 软件 对 Capric 卡 的 这 两 种 中 断 请 求 的 处 理 并 不 相同 。 

在 第 10. 3 节 中 ， 我 们 曾 详细 讨论 了 电 和 平 触发 与 边沿 触发 的 区 别 。 其 中 采用 电 乎 触发 不 
会 丢失 中 断 请 求 ， 而 采用 边沿 触发 将 会 丢失 中 断 请 求 。Capric 卡 可 以 保证 即便 使 用 了 MSI 中 
断 机 制 ， 也 不 会 丢失 中 断 请 求 。 

MSI 中 断 机 制 使 用 存储 右 写 TLP 实现 ， 这 个 存储 需 写 TLP 的 目的 地 址 为 MSI Capability 
结构 中 的 Message Address 字段 ， 而 数据 为 Message Data 寄存 器 中 的 值 。Message Address 字段 
和 Message Data 字段 由 系统 软件 在 初始 化 时 填写 。 在 不 同 的 处 理 器 体系 结构 中 ， 系 统 软件 填 
写 的 这 两 个 字段 的 数据 并 不 相同 ， 详 见 第 10. 2 节 和 第 10. 3 节 。 

LogiCORE 内 部 实现 了 MSI 中 断 机 制 ，Capric 卡 仅 需 一 些 简 单 的 组 合 逻 辑 即 可 实现 MSI 
中 断 机 制 。Capric 卡 需 要 根据 INT_REG 寄存 器 的 信息 ， 决 定 如 何 发 送 中 断 请 求 ， 这 部 分 中 
断 逻 辑 的 实现 较为 简单 ， 本 节 对 此 不 做 进一步 说 明 。 


12.3 基于 PCle 总 线 的 设备 驱动 


本 节 简 要 介绍 Capric 卡 在 Linux 系统 中 使 用 的 Char 类 型 设备 驱动 程序 。 为 便于 读者 理 
解 Linux 系统 PCIe 总 线 驱 动 程序 的 实现 构架 ， 本 节 将 详细 介绍 Capric 卡 的 初始 化 、DMA 读 、 
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DMA 写 、 中 断 服 务 例 程 和 关闭 过 程 ， 但 是 并 不 会 过 多 介绍 和 Linux 系统 相关 的 知识 ， 而 
重点 介绍 系统 软件 如 何 管理 和 配置 PCle 设备 。 
12.3.1 Capric 卡 驱动 程序 的 加 载 与 印 载 


在 Linux 系统 中 ，Capric 卡 驱动 程序 的 加 载 与 印 载 的 过 程 如 源 代码 12_1 所 示 。 这 部 分 
程序 并 不 会 直接 操作 PCIe 设备 ， 而 是 通过 pci_register_driver 函数 向 内 核 注册 一 个 pci_driver 
结构 ， 即 caprie_drv， 并 由 capric_probe 函数 完成 Capric 卡 的 初始 化 。 

源 代 码 12-1 Capric 卡 驱动 程序 的 加 载 与 卸载 


hunl 


static struct pci_device_id capric_ids[ | = | 
| PCI_DEVICE( PCI_VENDOR_ID_XILINX, PCI_DEVICE_ID_EP_PIPE),|, 
10,1 

1 


static struct pci_driver capric_drv = | 
.name = DEV_NAME, 
.id_table = capric_ids, 
. probe = capric_probe, 
. remove = capric_remove, 


所 


static int __init capric_init( void ) 
| 


int result ; 


result = pci_register_driver(&capric_drv ) ; 


return result; 


static void capric_exit( void ) 
| 


pei_unregister_driver( &capric_drv); 


module_init( capric_init) ; 


module_exit( capric_exit ) ; 


在 上 述 源 代码 中 ，pci_register_driver 函数 的 主要 作用 是 将 capric_drv 结构 与 PCI 设备 的 
pci_dev 结构 2 进行 绑 定 ， 并 在 初始 化 时 执行 capric_probe 函数 ， 而 在 结束 时 执行 capric_re- 


”这 些 pci_dev 结构 在 Linux 系统 对 PCI 总 线 枚 举 时 建立 。 在 加 载 Capric 卡 驱动 程序 之 前 ， 这 些 pei_dev 结构 已 经 存 
在 。Linux 系统 对 PCI 总 线 的 枚 举 过 程 见 第 14. 3 节 。 
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move 函数 。 这 段 源 代码 的 主要 作用 是 将 Capric 卡 驱 动 程序 使 用 的 “软件 结构 pci_driver” 与 
“硬件 结构 pci_dev” 建 立 联 系 。 本 文 并 不 会 深入 分 析 pci_register_driver 和 pci_unregister_ 
driver 因数 的 实现 细节 ， 而 仅 介 绍 该 函数 的 执行 顺序 。 对 Linux 系统 有 一 定 经 验 的 读者 ， 可 
以 从 中 获得 必要 的 知识 。 

pci_register_driver 图 数 首先 调用 _pci_register_driver 一 driver_register 一 bus_add_driver 函 
数 。bus_add_driver 图 数 进 行 一 些 必要 的 初始 化 操作 后 ， 调 用 driver_attach 一 bus_for_each_dev 
函数 查找 Capric 卡 的 pci_dev 结构 。 

在 Linux 系统 中 ，bus_for_each_dev 水 数 是 一 个 重要 的 也 数 ， 该 函数 将 遍历 Capric 卡 所 
在 PCI 总 线 树 上 的 所 有 pci_dev 结构 ， 并 依次 判断 pci_dev 结构 中 的 Device ID、Vendor ID 等 
信息 是 否 与 capric_ids 结构 中 包含 的 对 应 信息 相同 ， 如 果 相 同 则 调用 capric_probe 函数 。pbus_ 
for_each_dev 函数 调用 _driver_attach 函数 实现 该 过 程 。 

_ driver_attach 困 数 调用 drv 一 bus 一 match 函数 ( 即 pci_bus_match 国 数 ) ,而 pci_bus_ 
match 函数 将 继续 调用 pci_match_device 一 pci_match_id 因数 ， 判 断 capric_ids 所 包含 的 内 容 
是 否 在 当前 PCI 总 线 树 的 pci_dev 中 出 现 。 如 果 出 现 ， 将 capric_drv 结构 与 实际 的 PCI 设备 
进行 绑 定 。 之 后 继续 调用 driver_probe_device 一 really_probe 函数 。 

really_probe 限 数 将 调用 dev 一 bus 一 probe 限 数 ( 即 pci_device_probe 图 数 ) ，pci_device _- 
probe 国 数 将 调用 _pci_device_probe 一 pci_call_probe 一 local_pci_probe 函数 ， 并 最 终 调用 Cap- 
ric 卡 的 probe 函数 ， 即 capric_probe 也 数 。 

Capric 卡 的 印 载 过 程 是 加 载 的 逆 过 程 ， 其 调用 顺序 为 pci_unregister_driver 函数 、driver_ 
unregister 图 数 、bus_remove_driver 图 数 、driver_detach 图 数 和 __ device_release_driver 图 数 ， 
并 最 终 调 用 capric_remove 函数 。 

对 于 Capric 卡 ， 初 始 化 与 结束 操作 是 在 capric_probe 和 capric_remove 函数 中 完成 的 。 在 
capric_ids 结构 中 使 用 的 id 号 ， 是 联系 Capric 卡 的 pci_driver 结构 和 pci_dev 结构 的 桥梁 。 在 
该 结构 中 的 PCI_VENDOR_ID_XILINX 和 PCI_DEVICE_ID_EP_PIPE 即 为 Capric 卡 的 Vendor 
ID 和 Device ID， 分别 为 0x10EE 和 0x0007。 


12.3.2 Capric 卡 的 初始 化 与 关闭 


Capric 卡 的 probe 函数 完成 硬件 初始 化 和 一 些 Linux 系统 相关 的 初始 化 操作 。 当 Linux 
PCI 在 当前 PCI 总 线 树 中 ， 发 现 Capric 卡 后 ， 由 local_pci_probe 调用 capric_probe 函数 ， 该 
函数 具有 两 个 人 口 参 数 pci_dev 和 ids， 其 执行 过 程 如 源 代码 12-2 ~5 所 示 。 


源 代 码 12-2 ”Capric 卡 的 硬件 初始 化 片段 1 


static struct capric_private * adapter; 


static int capric_probe( struct pci_dev * pci_dev, 


const struct pci_device_id * ids) 


int result ; 


resource_size_t base_addr; 
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unsigned long length ; 
adapter = kmalloc( sizeof( struct capric_private) ,CEFP KERNEL ) ; 


if(unlikely(! adapter) ) 
return — ENOMEM; 


adapter -> pci_dev = pci_dev; 
result = pci_enable_device( pci_dev); 


if( unlikely( result) ) 


goto free_adapter; 


首先 capric_probe 函数 从 local_pci_probe 函数 中 获得 Capric 卡 对 应 的 pci_dev 描述 符 ， 在 
Linux 系统 中 每 一 个 PCI/PCIe 设备 都 与 唯一 的 pci_dev 描述 符 对 应 。pci_dev 描述 符 包 含 PCIe 
设备 的 全 部 信息 ， 该 结构 较为 简单 ， 在 . /include/linux/pei. bh 文件 中 定义 ， 本 节 并 不 对 该 结 
构 进 行 详细 介绍 。 

这 段 函数 首先 为 全 局 指针 adapter 分 配 空间 ， 在 全 局 指针 adapter 中 记录 了 一 些 Capric 卡 
需要 使 用 的 私有 人 参数， 包括 Capric 卡 使 用 的 pci_dev。 这 段 程序 为 adapter 分 配 完 内 存 空 间 
后 ， 将 调用 pci_enable_device 函数 使 能 PCIe 设备 。pci_enable_device 函数 的 主要 作用 是 修改 
Capric 卡 PCI 配置 空间 Command 寄存 器 的 [LO Space 位 和 Memory Space 位 。 

pci_enable_device 因数 最 终 调 用 pci_enable_resources 艺 数 ， 并 由 pci_enable_resources 拯 
数 扫 描 Capric 卡 的 BARO ~5 空间 ， 如 果 这 些 BARO ~5 空间 用 到 了 IO 或 者 Memory 空间 ， 
则 将 IO Space 位 和 Memory Space 位 置 1 。pci_enable_device 孔 数 最 后 调用 pcibios_enable_irq 
函数 分 配 PCI 设备 使 用 的 中 断 向 量 号 9 。 此 后 处 理 器 可 以 使 用 存储 器 或 者 IO 指令 与 Capric 
卡通 信 。pci_enable_device 函数 还 有 一 个 用 途 是 置 PCI 设备 的 D - State 为 D0。 

Linux PowerPC? 与 Linux x86 在 此 处 的 处 理 基本 类 似 。 只 是 在 PowerPC 处 理 器 系统 中 ， 
某 些 PCI 设备 支持 存储 器 写 并 无 效 周期 ， 此 时 pci_enable_device 函数 还 需要 使 能 PCI 设备 的 
Memory Write and Invalidate 位 ， 同 时 需要 填写 配置 空间 的 Cache Line Size 寄存 器 2 。 

Linux x86 的 MSI 中 断 机 制 处 理 过 程 与 Linux PowerPC 也 不 尽 相同 。 在 Linux x86 中 ， 一 
个 PCIe 设备 使 能 或 者 不 使 能 MSI 中 断 机 制 时 ， 其 pci_dev 一 ird 参数 并 不 相同 。 

如 果 其 他 设备 驱动 程序 再 次 调用 pci_enable_device 函数 使 能 该 设备 时 ， 该 函数 仅 增 加 
pci_dev 的 引用 计数 ， 并 不 会 重新 使 能 该 PCI 设备 。 与 此 对 应 pci_disable_device 函数 只 有 在 
pci_dev 的 引用 计数 为 0 之 后 ， 才 能 关闭 pci_dev 结构 。 当 两 个 以 上 的 设备 驱动 程序 操纵 相同 
的 便 件 时 ， 会 出 现 这 种 情况 。 


”如 果 该 PCI 设备 没有 使 用 MSI 或 者 MSI-X 机 制 时 ， 才 进行 这 种 操作 。 
外 本 书 分 别 用 Linux PowerPC 和 Linux x86 代表 基于 PowerQUICC (32 位 ) 和 x86 处 理 器 的 Linux 系统 。 
四 该 步骤 如 pmac_pci_enable_device_hook 函数 所 示 。 
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源 代 码 12-3 Capric 卡 的 硬件 初始 化 片段 2 


pci_set_master( pci_dev); 


// pei_try_set_mwi(pci_dev); 
result = pci_set dma_mask(pci_dev, DMA_MASK); 


if( unlikely( result) ) | 
PDEBUG( "can not set dma mask ... \n" ) ; 
goto disable_pci_dev; 


| 


pci_set_master 图 数 将 Capric 卡 PCI 配置 空间 Command 寄存 器 的 Bus Master 位 置 1 ， 表 示 
Capric 卡 可 以 作为 PCI 总 线 的 主 设备 。Capric 卡 是 基于 PCle 总 线 的 设备 ， 而 PCle 总 线 不 文 
持 存 储 器 写 并 无 效 操作 ， 因 此 这 上 段 程序 不 需要 使 用 pci_try_set_mwi 函数 设置 Command 寄存 
人 右 的 Memory Write and Invalidate 位 。 

pci_set_dma_mask 因数 设置 PCIe 设备 使 用 的 DMA 掩 码 。Capric 卡 对 一 段 内 存 进 行 DMA 
操作 时 ， 需 要 使 用 这 段 内 存在 PCI 总 线 域 的 物理 地 址 pci_addess， 如 果 这 段 内 存在 存储 器 域 
的 物理 地 址 physical_address & DMA_MASK = physical_address 时 ， 表 示 Capric 卡 可 以 对 这 上段 
内 存 进行 DMA 操作 。 

x86 处 理 器 可 以 使 用 pci_dma_supported 琐 数 获得 最 合适 的 DMA_MASK 参数 ; 而 在 Pow- 
erPC 处 理 器 中 允许 PCIe 设备 访问 的 主 存储 器 地 址 范围 在 Inbound 寄存 器 组 中 定义 ， 只 有 在 
Inbound 寄存 器 窗口 中 映射 的 物理 地 址 才能 被 PCIe 设备 访问 ， 有 关 Inbound 寄存 器 组 的 详细 
说 明 见 第 2.2 节 。 在 x86 和 PowerPC 处 理 器 中 ，Ppci_set_dma_mask 限 数 的 实现 方法 不 同 。 


源 代 码 12-4 Capric 卡 的 硬件 初始 化 片段 3 


result = pci_request_regions(pci_dev,DEV_NAME ) ; 
if( unlikely( result) ) 
goto disable_pci_dev; 


base_addr = pci_resource_start( pci_dev,0); 


if( unlikely( ! base_addr) ) | 
result = — EIO; 
PDEBUG ("no MMIO... \n" ) ; 


goto release_regions; 


if( unlikely( (length = pcei_resource len(pci_dev,0) < BARO_BYTE SIZE))| 
result = — EIO; 
PDEBUG(" MMIO is too small ... \n"); 


goto release_regions; 
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| 


adapter -> pci_bar0 = ioremap(base_addr，length ) ; 


if(unlikely(! adapter -> pci_bar0) ) | 
result = 一 上 IO; 
PDEBUC("cannot map MMIO... \n" ) ; 


goto release_regions ; 


| 


这 段 源 代码 调用 pci_request_regions 函数 使 DEV_NAME 对 应 的 驱动 程序 成 为 pci_dev 存 
储 咒 资源 的 拥有 者 。 在 Linux 系统 中 所 有 存储 器 映射 的 寄存 器 和 IO 映射 的 寄存 器 都 使 用 
ioresources 进行 管理 。 每 一 组 存储 右 空 间 都 对 应 一 个 resource 结构 ，pcei_request_regions 函数 
经 过 一 系列 函数 调用 ， 最 终 调 用 __request_region 困 数 ， 将 Capric 卡 的 BARO 空间 使 用 的 re- 
source 结构 ， 其 name 参数 设置 为 DEV_NAME， 其 flags 参数 设置 为 IORESOURCE_BUSY。 

因此 一 个 PCle 设备 的 驱动 程序 使 用 pci_request_regions 了 荫 数 对 pci_dev 结构 进行 设置 ， 
将 其 使 用 的 flags 位 设置 为 IORESOURCE_BUSY 之 后 ， 其 他 驱动 程序 不 能 再 次 设置 这 个 flags 
位 。 在 实际 应 用 中 可 能 存在 一 个 硬件 设备 对 应 两 个 设备 驱动 程序 的 情况 ， 此 时 只 有 一 个 设备 
驱动 程序 可 以 使 用 pci_request_regions 函数 对 资源 进行 管理 。 

pci_resource_start 困 数 从 resource 结构 获得 BARO 空间 的 基地 址 ， 该 地 址 为 存储 需 域 的 
物理 地 址 ， 而 不 是 PCI 总 线 域 的 物理 地 址 ， 该 值 与 直接 使 用 pci_read_config_word 函数 读 取 
PCI 设备 BAR 寄存 器 所 获得 的 值 即 便 相 等 ， 也 没有 本 质 的 联系 ， 因 为 从 resource 结构 获得 的 
是 该 设备 BAR 寄存 右 在 存储 屁 域 的 物理 地 址 ， 而 使 用 pci_read_config_word 函数 获得 的 是 
PCI 总 线 域 的 物理 地 址 。 在 Linux 驱动 程序 中 ， 需 要 使 用 的 是 存储 器 域 的 物理 地 址 。 

本 书 从 始 至 终 一 直 强 调 PCI 总 线 域 物理 地 址 和 存储 器 域 物理 地 址 的 区 别 ， 希望 读者 真正 
理解 这 两 个 地 址 的 区 别 。 在 x86 处 理 咒 中 ,， 并 没有 显 式 区 分 这 两 个 物理 地 址 的 区 别 ， 这 在 某 
种 程度 上 误导 了 部 分 系统 程序 员 。 

在 这 段 程 序 的 最 后 使 用 ioremap 函数 将 存储 器 域 的 物理 地 址 映射 成 为 Linux 系统 中 的 
虚拟 地 址 ， 之 后 Capric 卡 的 设备 驱动 程序 可 以 使 用 adapter 一 pci_bar0 指针 访问 Capric 卡 中 存 
储 器 映射 的 寄存 器 。 

除了 ioremap 哨 数 之 外 ，Linux 系统 还 提供 了 ioremap_nocache 和 ioremap_cache 函数 用 于 
存储 需 域 虚实 地 址 的 转换 。 其 中 ioremap_nocache 国 数 将 存储 需 域 的 物理 地 址 空间 映射 到 一 
段 “ 不 可 Cache” 的 虚拟 地 址 空间 ， 在 绝 大 多 数 体系 结构 中 ， 这 个 函数 与 ioremap 四 数 的 实 
现 一 致 ， 因 为 绝 大 多 数 外 部 设备 都 需要 映射 到 “不 可 Cache” 的 虚拟 地 址 空间 中 。 由 于 历史 
原因 ，99% 以 上 的 程序 员 已 经 使 用 了 ioremap 函数 而 不 是 ioremap_nocache 函数 进行 总 线 地 址 
到 虚拟 地 址 的 转换 ， 因 此 ioremap_nocache 函数 显得 元 余 。 

值得 注意 的 是 ， 对 于 PCIe 设备 的 Linux 驱动 程序 ， ioremap 了 艺 数 使 用 的 物理 地 址 必须 从 
pci_resource_start 了 水 数 获得 ， 而 不 能 使 用 “通过 pci_read_config_xxxx 限 数 ”获得 的 BARx 基 
地 址 ， 因 为 PCIe 设备 的 BARx 基地 址 空间 属于 PCI 总 线 域 ， 而 不 是 存储 器 域 。 

某 些 设备 还 可 能 使 用 “可 Cache 的 ”虚拟 地 址 空间 ， 此 时 需要 使 用 ioremap_cache 函数 

3 了 22 


将 存储 融 域 地 址 转换 为 虚拟 地 址 ， 目 前 为 止 , 仅 有 极 少数 外 部 设备 需要 使 用 这 一 函数 ， 如 
PCle 设备 中 的 ROM 空间 。 

Linux 系统 还 提供 了 一 个 ioremap_flags 电 数 ， 使 用 这 个 孔 数 可 以 自 定义 存储 絮 域 地 址 转 
换 到 哪 种 类 型 的 虚拟 地 址 ， 该 函数 提供 了 一 个 入 口 参数 flags ， 系 统 程序 员 可 以 使 用 该 参数 确 
定 所 申请 虚拟 地 址 空间 的 类 型 。 对 于 x86 处 理 器 ，flags 参数 的 定义 见 . /arch/x86/include/ 
asm/pgtable. h 文件 ; 而 对 于 PowerPC 处 理 器 ，flags 参数 的 定义 见 . /arch/powerpc/include/ 
asm/ pgtable-ppc32. h 文件 。 


源 代码 12-5 Capric 卡 的 硬件 初始 化 片段 4 


result = register_chrdev( test_dri_major, DEV_NAME, &capric_fops); 


result = pci_enable_msi( pci_dev); 


if( unlikely( result) ) | 
PDEBUG( "can not enable msi... \n" ); 


goto chrdev_unregister; 
result = request_irq( pci_dev —> irq, capric_interrupt, 
0, DEV_NAME, NULL); 
if( unlikely( result) ) | 


PDEBUG( "request interrupt failed ... \n" ) ; 


goto err_disable_msi; 


capric_reset( ) ; 


return 0 ; 


static const struct file_operations capric_char fops = | 


. OWner = THIS_MODULE, 
. ioctl = capric_ioctl, 

. open = capric_open, 

. release = capric_release, 

. Write = capric_write, 

. read = capric_read, 


网 


这 段 源 代码 首先 使 用 register_chrdev 函数 注册 一 个 char 类 型 的 设备 驱动 程序 ， 包 括 打 
开 、 关 闭 、 读 写 操作 和 ioctl 函数 。 之 后 该 程序 调用 pci_enable_msi 函数 使 能 Capric 卡 的 MSI 
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中 断 请 求 机 制 ， 该 函数 将 在 第 12. 3. 5 节 中 详细 介绍 。 

随后 这 段 程序 使 用 request_irq 函数 注册 Capric 卡 使 用 的 中 断 服务 例 程 capric_interrupt， 
并 使 用 pci_dev 一 irq 作为 这 个 函数 的 irq 入 口 参 数 。Capric 卡 的 pci_dev 一 irq 参数 在 Linux 系 
统 对 PCI 总 线 进行 初始 化 时 分 配 ， 在 x86 处 理 器 中 ， 如 果 一 个 PCIe 设备 支持 MSI 中 断 ， 驱 
动 程序 执行 完毕 pci_enable_msi 函数 后 ，pci_dev 一 *irqd 参数 还 会 发 生变 化 。 因 此 request_irq 也 
数 必 须 在 pci_enable_msi 水 数 之 后 运行 。 

这 段 源 代码 的 最 后 将 调用 capric_reset 函数 ， 对 Capric 卡 进行 便 件 初 始 化 ， 该 函数 执行 
的 操作 见 第 12. 1.2 节 。 


12.3.3 Capric 卡 的 DMA 读 写 操作 


Capric 卡 的 DMA 读 / 写 过 程 与 capric_write/capric_read 图 数 对 应 。 

1. DMA 写 的 操作 流程 

Capric 卡 的 数据 传送 方法 较为 简单 ， 其 DMA 读 写 的 硬件 操作 流程 如 第 12. 1.3 节 所 示 。 
DMA 写 的 实现 过 程 与 capric_read 函数 对 应 ， 如 源 代 码 12-6 ~7 所 示 。 


源 代码 12-6 ”Capric 卡 的 DMA 写 片段 1 


static ssize_t capric_read( struct file * file, 


char __user * buff, size_t count, loff t *f_ pos) 


int err = — EINVAL; 
void *virt_addr = NULL; 


dma_addr_t dma_write_addr ; 
virt_addr = kmalloc( count, GFP_KERNEL); 


if( (unlikely( ! virt_addr) ) | 
PDEBUG( "can not alloc rx memory you want ... \n" ); 
return 一 上 IO ; 


dma_write addr = pci_map_single( adapter -> pci_dev， 


virt_addr，count，PCL_DMA_FROMDEVICE ) ; 


if( (unlikely( pci_dma_mapping_error( adapter -> pci_dev, dma_write_addr) ) ) | 
PDEBUG( "RX DMA MAPPING FAIL... \n" ); 


goto err_kmalloc; 


| 


这 段 源 代码 首先 对 count 字段 进行 检查 ， 因 为 Capric 卡 规定 一 次 DMA 操作 所 传递 的 数 
据 不 超过 2KB， 之 后 使 用 kmalloc 函数 分 配 DMA 写 使 用 的 数据 缓存 。kmalloc 函数 所 能 分 配 
的 内 存 大 小 受 限 于 Linux 系统 中 的 SLAB/SLUB 内 存 分 配器 ， 在 系统 内 存 紧 张 时 ， 有 可 能 
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败 ， 因 此 在 此 必须 进行 参数 检查 。 值 得 注意 的 是 ， 在 一 个 实际 驱动 程序 中 ， 很 少 在 读 写 服务 
例 程 中 使 用 kmalloc 函数 申请 内 存 ， 然 后 使 用 kfree 函数 释放 这 段 内 存 ， 因 为 这 样 做 容易 产生 
内 存 碎片 。 而 且 kmalloc 函数 的 执行 时 间 也 相对 较 长 ， 影 响 数据 传送 的 效率 。 

随后 这 段 代码 调用 pci_map_single 函数 将 存储 器 域 的 虚拟 地 址 virt_addr 转换 为 PCI 总 线 
域 的 物理 地 址 dma_write_addr， 供 Capric 卡 的 DMA 控制 需 使 用 。Linux 系统 提供 了 一 组 将 虚 
拟 地 址 转换 为 设备 域 物 理 地 址 的 方法 ， 参 见 第 12.3.5 节 。 


源 代 码 12-7 Capric 卡 的 DMA 写 片段 2 


#ifdef CONFIG_NOT_COHERENT_CACHES 
dma_sync_single( adapter — > pci_dev, 
virt_addr, count, PCI DMA _ FROMDEVICE); 
#endif 
capric_w32( dma_write_addr, WR_DMA_ADR); 
capric_w32(count，WR_DMA_SIZE ) ; 
capric_w32( MWR_START, DCSR2); 


if( unlikely( interruptible_sleep_on( adapter -> dma_write_wait) ) ) 


goto err_pcl_map ; 


if( (unlikely( copy_to_user( buff, virt_addr, count) ) ) 


goto err_pcl_map; 
pci_unmap_single(adapter -> pci_dev, virt_addr, count, PCI_DMA FROMDEVICE); 


kfree( virt_addr) ; 


return count; 


| 


如 果 当 前 DMA 写 操作 不 与 Cache 进行 一 致 性 操作 ， 将 首先 执行 dma_sync_single 图 数 进 
行 存储 器 与 Cache 的 同步 操作 ， 该 函数 的 详细 说 明 见 第 12. 3. 6 节 。 随 后 这 段 程序 使 用 capric 
_w32 函数 执行 第 12. 1. 3 节 中 要 求 的 寄存 器 操作 ， 之 后 可 以 使 用 轮 询 方 式 ， 或 者 使 用 中 断 方 
式 唤 醒 这 个 DMA 写 进程 。 当 进程 被 唤醒 后 ， 表 示 DMA 写 操作 已 经 完成 ， 此 时 这 上段 程序 使 
用 copy_to_user 函数 将 数据 复制 到 用 户 空间 o 

值得 注意 的 是 ， 这 段 代码 使 用 了 interruptible_sleep_on 函数 将 当前 进程 休眠 ， 而 在 中 断 
处 理 程序 中 使 用 wake_up_interruptible 函数 将 其 唤醒 。 这 是 一 种 非常 糟糕 的 实现 方式 ， 而 且 
存在 相当 大 的 隐患 。 

interruptible_sleep_on 函数 的 主要 工作 是 将 当前 进程 放 和 等待 队列 中 睡眠 ， 目 前 在 Linux 
系统 中 该 函数 已 经 逐步 被 wait_event_interruptible 函数 取代 但 这 并 不 是 问题 的 关键 。 在 源 


让 二 


© #ifdef 和 #endif 出 现在 函数 体 中 并 不 可 取 ， 请 读者 参阅 Greg Kroah- Hartman 的 Proper Linux Kernel Coding Style 掌握 
正确 的 处 理 方法 。 
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代码 12-7 中 ， 即 便 使 用 wait_event_interruptible 函数 也 存在 同样 的 问题 。 

因为 interruptible_sleep_on 函数 的 执行 路 径 较 长 ， 很 可 能 在 当前 进程 还 没有 被 该 晒 数 放 
入 adapter -> dma_write_wait 队列 时 ， 处 理 需 已 经 执行 中 断 服 务 例 程 ， 打 断 interruptible_sleep 
_on 图 数 ， 并 执行 wake _up _interruptible 了 消 数 。Capric 中 断 服 务 例 程 的 详细 说 明 见 第 
12.3.4 节 。 

wake_up_interruptible 函数 将 唤醒 在 adapter -> dma_write_wait 队列 中 休眠 的 进程 ， 而 此 
时 当前 进程 可 能 还 没有 被 加 入 到 等 竺 队列 中 。 当 该 函数 执行 完毕 退出 中 断 处 理 例 程 之 后 ， 处 
理 需 继续 执行 capric_read 函数 ， 并 完成 interruptible_sleep_on 函数 的 执行 ， 将 自身 加 入 到 等 
竺 队列 中 睡眠 。 此 时 由 于 中 断 服务 例 程 已 经 被 提前 执行 ， 因 此 当前 进程 不 会 被 wake_up_in- 
terruptible 函数 唤醒 ， 从 而 造成 死 锁 。 

程序 员 可 以 使 用 DCSR1 寄存 器 的 msk 和 pending 位 解决 这 个 死 锁 问题 。 采 用 这 种 方法 
时 ， 设 备 驱 动 程序 需要 保证 当前 进程 进入 等 待 队列 后 ， 再 允许 Capric 卡 提交 中 断 请 求 。 但 
是 这 种 方法 将 产生 较 长 的 中 断 延 时 ， 从 而 极 大 影响 Capric 卡 的 DMA 读 写 效率 。 

程序 员 还 可 以 使 用 interruptible_sleep_on_timeout 或 者 wait_event_interruptible_timeout 函 
数 进行 超时 处 理 ， 使 用 该 方法 也 可 以 解决 上 述 死 锁 问 题 。 

以 上 这 两 种 方法 都 不 是 完美 的 解决 方案 ， 因 为 产生 这 种 死 锁 的 主要 原因 是 Capric 卡 的 
逻辑 设计 并 不 合理 。Capric 卡 使 用 的 数据 传送 模型 较为 简单 ， 系 统 程序 员 很 难 基 于 此 模型 写 
出 高 效 的 驱动 程序 。 

2. DMA 读 的 操作 流程 

Capric 卡 DMA 读 使 用 的 函数 与 DMA 写 的 类 似 ， 其 流程 如 源 代码 12-8 所 示 。 

源 代码 12-8 Capric 卡 的 DMA 读 


static ssize_t capric_write( struct file * file, 


const char __ user * buff, size_t count, loff t * f_pos) 
int err = — EINVAL; 
void x* virt_addr = NULL; 
dma_addr_t dma_write_addr; 


virt_addr = kmalloc( count, GFP_KERNEL); 


if( (unlikely( copy_from_user( virt_addr, buff, count) ) ) 


POUTEOTE: 


dma_write_addr = pci_map_single( adapter -> pci_dev， 


virt_addr，count，PCL_DMA_TODEVICE ) ; 
#ifdef CONFIG_NOT_COHERENT_CACHE 


dma_sync_single( adapter -> pci_dev, virt_addr, 
count, PCI_DMA_TODEVICE) ; 
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#endif 


capric_w32( dma_write_addr, RD_DMA_ADR); 
capric_w32( count, RD_DMA_SIZE),; 
capric_w32( MRD_START, DCSR2 ) ; 


adapter -> dma_read_done = 0; 


if( unlikely( interruptible_sleep_on( adapter -> dma_read_wait) ) ) 


goto err_pcl_map; 


pci_unmap_single(adapter -> pci_dev, 
dma_write_addr, count, PCI_DMA_TODEVICE):; 
kfree( virt_addr) ; 


return count; 


| 


读者 如 果 正 确 理 解 了 上 文 关于 DMA 写 的 执行 过 程 ，DMA 读 的 执行 过 程 并 不 难 理解 。 
Capric 卡 DMA 读 的 硬件 操作 流程 如 第 12. 1. 4 节 所 示 。 上 述 源 代码 使 用 capric_w32 函数 完成 
硬件 寄存 右 的 填写 ,然后 可 以 使 用 轮 询 或 者 中 断 方式 确定 DMA 读 是 否 已 经 完成 。 在 DMA 
读 完成 之 后 该 例 程 将 释放 使 用 的 内 存 资 源 后 返回 。 与 DMA 写 的 操作 流程 类 似 ， 这 段 程序 依 
然 存在 隐患 。 


12.3.4 ”Capric 卡 的 中 断 处 理 


Capric 卡 一 共 需 要 处 理 三 种 中 断 请 求 ， 分 别 为 DMA 写 完成 、DMA 读 完 成 和 错误 中 断 请 
求 。Capric 卡 使 用 了 一 个 中 断 服 务 例 程 处 理 这 些 中 断 请 求 ， 其 执行 流程 如 源 代码 12-9 所 示 。 
源 代码 12-9 Capric 卡 的 中 断 服务 例 程 


static irqreturn_t capric_interrupt( int irq ,void * dev) 
| 

unsigned int statue; 

statue = capric_r32(INT_REG); 

if(1 (statue & INT_ASSERT) )! 


PDEBUG( "irq_none ... \n"); 
return IRO_NONE ; 


if( statue & INT_ASSERT_R) | 
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capric_w32(statue ,INT_REC ) ; 
wake_up_interruptible( &adapter -> dma_read_wait ) ; 
| 


else | 
capric_w32(statue ,INT_REC ) ; 


wake_up_interruptible( &adapter -> dma_write_wait ) ; 


PDEBUC("irq handled ... \n" ) ; 
return IRQ_HANDLED ; 
| 


在 capric_probe 图 数 中 ，capric_interrupt 中 断 服 务 例 程 被 request_irq 图 数 注册 到 Linux 系 
统 的 irq_desc 中 断 描 述 符 表 中 ， 并 与 Linux 系统 的 外 部 中 断 人 处理 函数 do_IRQ 挂 接 ， 当 Capric 
卡通 过 MSI 中 断 方 式 提交 外 部 中 断 请 求 后 ，do_IRQ 函数 将 最 终 调用 capric_interrupt 函数 完 
成 相应 的 中 断 处 理 。Capric 卡 处 理 中 断 请 求 的 硬件 操作 流程 如 第 12. 1. 5 节 所 示 。 

目前 Linux 系统 对 MSI 机 制 的 支持 并 不 理想 ，pci_enable_msi 函数 2 仅 可 以 获得 一 个 irq 
号 ， 这 为 中 断 服务 例 程 的 设计 带 来 了 一 定 的 困难 。 如 果 pci_enable_msi 函数 可 以 获得 多 个 irq 
号 ， 那么 在 capric_probe 函数 中 ， 可 以 使 用 多 个 中 断 服务 程序 ， 其 中 DMA 写 完成 、 读 完成 
和 错误 处 理 分 别 使 用 三 个 中 断 服务 例 程 ， 而 不 必 使 用 capric_r32 函数 读 取 INT_REG 寄存 器 。 
在 Linux 系统 中 ， 将 pci_enable_msi 函数 改写 为 支持 多 个 irq 号 并 不 困难 。 对 于 许多 PCIe 设 
备 ， 这 种 改写 是 必须 的 ， 因 为 RC 从 PCIe 设备 中 读 取 寄存 器 的 代价 是 非常 昂贵 的 。 


12.3.5 存储 器 地 址 到 PCI 总 线 地 址 的 转换 


在 Linux 系统 中 ， 文 持 一 系列 API 实现 存储 器 地 址 到 PCI 总 线 地 址 的 转换 ， 这 些 API 的 
详细 定义 见 . /Documentation/DMA-API. txt 文件 。 本 节 仅 以 pci_map_single 函数 为 例 说 明 这 种 
地 址 转换 的 工作 原理 。pci_map_single 水 数 在 . /include/asm - generic/pci - dma - compat Ph 文 
件 中 ， 如 源 代码 12-10 所 示 。 


源 代码 12-10 ”pci_map_single 函数 


static inline dma_addr t 


pei_map_single( struct pci_dev * hwdev, void * ptr, size_t size, int direction ) 


| 
return dma_map_single( hwdev == NULL ? NULL : &hwdev -> dev， 
ptr, size, (enum dma_data_direction ) direction ) ; 


| 


该 函数 共有 4 个 输入 参数 ， 其 中 hwdev 参数 与 PCI 设备 的 pci_dev 对 应 ，ptr 参数 对 应 存 
储 器 域 的 虚拟 地 址 ，size 字段 对 应 数据 区 域 的 大 小 。 而 direction 参数 与 数据 区 域 的 使 用 方法 


”Linux 2. 6. 31 内 核 提 供 的 pci_enable_msi_block 函数 也 仅 支 持 一 个 中 断 向 量 。 
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对 应 ，PCI_DMA_NONE 用 于 调试 ， 较 少 使 用 ; PCI_DMA_TODEVICE 表示 这 段 数据 的 传递 方 
向 是 从 存储 器 到 PCI 设备 ，PCI_DMA_FROMDEVICE 表示 这 段 数据 的 传递 方向 是 从 PCI 设备 
到 存储 器 ; PCI_DMA_BIDIRECTIONAL 表示 方向 未 知 。 该 函数 的 返回 值 为 dma_addr， 即 PCI 
总 线 域 的 物理 地 址 。 

pci_map_single 函数 的 主要 作用 是 通过 ptr 参数 ， 获 得 与 之 对 应 的 dma_addr， 即 进行 存 
储 咒 域 虚 拟 地 址 到 PCI 总 线 域 物 理 地 址 的 转换 。 值 得 注意 的 是 存储 器 域 物 理 地 址 与 PCI 总 线 
域 物 理 地 址 的 区 别 。 

在 Linux 系统 中 ， 使 用 virt_to_phys 函数 将 存储 需 域 的 虚拟 地 址 转换 为 存储 需 域 的 物理 
地 址 ， 但 是 通过 该 函数 仅 能 获得 存储 器 域 的 物理 地 址 ， 因 此 该 地 址 不 能 填写 到 PCI 设备 中 进 
行 DMA 操作 。 值 得 注意 的 是 ， 进 行 DMA 操作 的 地 址 是 由 PCI 设备 使 用 的 ， 而 且 这 个 地 址 只 
能 是 PCI 总 线 域 的 物理 地 址 ， 尽 管 在 许多 处 理 器 中 ，rvirt_to_phys 函数 和 pci_map_single 函数 
的 返回 值 相同 。 

不 同 的 处 理 需 使 用 不 同 的 方式 实现 pci_map_single 函数 。 起 初 在 x86 处 理 需 中 ， 存 储 器 
域 物 理 地 址 到 PCI 总 线 域 物理 地 址 的 转换 非常 简单 ， 是 直接 相等 的 关系 。 但 是 x86 处 理 央 为 
了 支持 虚拟 化 技术 ,使 用 了 VT-d/IOMMUS 技术 ， 使 得 该 函数 的 实现 略微 复杂 。 

同样 是 基于 x86 架构 ，AMD 处 理 器 使 用 的 IOMMU 技术 与 Intel 有 所 区 别 ，AMD 的 x86 
处 理 需 使 用 . /arch/x86/kernel/amd_iommu. ce 文件 中 的 map_single 图 数 ， 进 行 存储 器 域 地 址 
空间 到 PCI 总 线 域 地 址 空间 的 转换 ;而 Intel 的 x86 人 处理 避 使 用 . /drivers/pci/intel - iommu. c 
文件 中 的 intel_map_single 函数 实现 存储 器 地 址 空间 到 PCI 域 地 址 空间 的 转换 。IOMMU 技术 
略微 有 些 复杂 ， 在 第 13. 1 节 中 将 专门 描述 这 部 分 内 容 。 

在 PowerPC 处 理 器 中 ， 存 在 一 组 Inbound 寄存 器 ， 通 过 该 组 寄存 器 可 以 将 PCI 总 线 地 址 
转换 为 PowePC 处 理 絮 规定 的 存储 絮 地 址 ， 详 见 第 2.2 节 。 这 组 Inbound 寄存 需 也 可 以 看 作 
一 种 IOMMU ， 只 是 该 IOMMU 机 制 仅 支持 段 式 映射 而 不 支持 页 式 映 射 。 

Linux PowerPC 使 用 dma_direct_map_page 函数 实现 这 个 地 址 转换 ， 该 函数 的 定义 详 见 .7 
arch/powerpc/kernel/dma. ce。 在 Linux PowerPC 中 ，PCI 总 线 域 的 物理 地 址 也 与 存储 占 域 的 物 
理 地 址 相等 。 

Linux PowerPC 还 需要 设置 Inbound 寄存 器 组 ， 这 段 代 码 在 . /arch/power/sysdev/fsl_pci. c 
文件 的 setup_pci_atmu 函数 中 ， 如 源 代 码 12-11 所 示 。 目 前 这 段 代 码 对 Inbound 寄存 需 组 的 
Entry 2 进行 设置 ， 人 允许 PCIe 设备 访问 0 ~0x7FFF -FFFF (2GB) 这 段 存储 器 域 物理 地 址 空 
间 ， 而 且 PCI 总 线 地 址 与 存储 器 地 址 一 一 对 应 而 且 相 等 。 

源 代 码 12-11 setup_pci_atmu 函数 


static void __init setup_pci_atmu( struct pci_controller * hose, 
struct resource +* rsrc) 


| 


/* Setup 2G inbound Memory Window @ 1 */ 


VT-d 是 指 Intel 的 Virtualization Technology for Directed /0O 技术 ， 而 AMD 将 这 一 技术 称 为 IJOMMU。 下 文 将 这 些 技 
术 都 简称 为 IJOMMU 。 
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out_be32(&pei -> piw[2]. pitar, Ox00000000) ; 
out_be32(&pei -> piw[ 2 ]. piwbar,0x00000000) ; 
out_be32(&pcei ->piw[2]. piwar，PIWAR_2C ) ; 


| 

这 段 代 码 源 于 Linux 2. 6. 30， 在 这 个 版 本 中 ，PCIe 设备 不 能 访问 PowerPC 处 理 器 2GB 之 
上 的 物理 内 存 。 而 在 Linux 2. 6. 31. 6 中 ,该 函数 被 大 规模 修改 ， 以 支持 超过 2GB 的 存储 带 
系统 ， 本 节 对 Linux 内 核 的 这 些 改 动 不 做 进一步 描述 ， 对 此 有 兴趣 的 读者 可 以 参考 Linux 
2. 6. 31.6 内核 中 setup_pci_atmu 函数 的 最 新 实现 。 

有 些 支 持 IOMMU 机 制 的 PowerPC 处 理 器 ， 如 IBM 的 PowerPC 处 理 器 系列 ， 可 以 使 用 
dma_iommu_map_page 或 者 ibmebus_map_page 图 数 实现 pci_map_single 函数 , 而 cell 处 理 吉 使 
用 dma_fixed_map_page 困 数 实现 该 功能 。pci_map_single 因数 函数 在 I[BM 的 PowerPC 处 理 需 
上 已 经 移植 完毕 ,但 是 Freescale 除了 P4080 处 理 器 之 外 ， 还 没有 支持 IOMMU 的 处 理 器 。 目 
前 对 P4080 处 理 器 的 支持 并 没有 加 入 到 Linux PowerPC 中 。 


12.3.6 存储 器 与 Cache 的 同步 


Linux 系统 还 提供 了 一 组 sync 函数 ， 如 dma_sync_single 、dma_sync_sg 等 图 数 ， 这 组 sync 
函数 的 主要 作用 是 为 了 支持 “不 进行 Cache 共享 一 致 性 ”的 DMA 操作 。 

如 果 设 备 进行 DMA 操作 时 ， 不 需要 硬件 进行 Cache 一 致 性 操作 2 ， 那 么 处 理 器 在 DMA 
操作 之 前 ， 需 要 使 用 软件 指令 将 操作 的 数据 区 域 与 Cache 进行 同步 ， 之 后 进行 DMA 操作 。 
PCIe 设备 启动 DMA 请 求 时 ， 如 果 其 TLP 头 部 Att 字段 的 No Snoop Attribute 位 为 19 时 ， 驱 
动 程序 也 需要 进行 这 种 同步 操作 。 在 PowerPC 处 理 嚣 中， 有 一 些 非 PCle 设备 ， 如 QE 
(QUICC Engine) 中 的 一 些 内 山 设备， 这 些 设备 可 以 通过 设置 snoop 位 决定 在 DMA 传送 过 程 
中 ， 是 否 需 要 硬件 进行 Cache 一 致 性 操作 。 

目前 多 数 RC 或 者 HOST 主 桥 都 可 以 通过 总 线 监 听 ， 解决 PCI 设备 进行 DMA 操作 的 
Cache 一 致 性 问题 。 但 是 有 些 RC， 如 MPC8572 处 理 器 的 可 以 通过 设置 Inbound 寄存 器 决定 
当前 访问 是 否 支 持 Cache 一 致 性 操作 。 

如 果 硬 件 不 支持 Cache 共享 一 致 性 ， 那 么 PCI 设备 进行 DMA 操作 时 ， 必 须 使 用 软件 指 
令 维护 存储 器 与 Cache 的 同步 ， 从 而 避免 Cache 与 主 存储 器 不 一 致 的 现象 发 生 。 

系统 软件 程序 员 使 用 软件 指令 维护 Cache 时 ,务必 深入 理解 这 些 指令 的 特点 和 使 用 方 
法 。 在 处 理 需 系统 的 设计 中 ， 有 两 类 错误 最 难 被 发 现 ， 一 类 是 Cache 与 存储 器 系统 的 不 一 
致 ， 另 一 类 是 数据 传送 的 序 。 

即使 是 对 资深 的 系统 程序 员 ， 也 很 难 从 这 些 错 误 表 现形 式 中 ， 发 现 是 Cache 不 一 致 或 者 
数据 传送 的 序 引 发 的 系统 错误 。 因 此 系统 程序 员 需 要 重视 在 一 个 处 理 器 系统 中 的 Cache 一 致 
性 (Cache Cohenrency) 和 数据 完成 性 (Data Consistency)。 


@ 有 些 处 理 器 不 支持 硬件 的 Cache 共享 一 致 性 ， 如 一 些 低 端的 ARM 处 理 器 。 
昌 目前 大 多 数 PCIe 设备 进行 DMA 操作 时 ，No Snoop Atbibute 位 都 为 0。 
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因此 虽然 对 于 多 数 PCI 设备 ，Cache 一 致 性 可 以 由 硬件 保证 ， 本 节 也 必须 讲述 如 何 通 过 
软件 指令 维护 Cache 的 一 致 性 。Linux 系统 使 用 dma_sync_single 国 数 维护 Cache 的 一 致 性 。 
dma_sync_single 因数 的 实现 如 源 代 码 12-12 所 示 。 

源 代 码 12-12 dma_sync 函数 


#define dma_sync_single dma_sync_single_for_cpu 


static inline void 
dma_sync_single_for_ cpu( struct device * hwdev, dma_addr_t dma_handle, 


size_t size, enum dma_data_direction dir) 
struct dma_map_ops * ops = get_dma_ops( hwdev); 
BUG_ON( |! valid_dma_direction( dir) ) ; 
if (ops -> sync_single_for_cpu) 
ops -> sync_single_for_cpu( hwdev, dma_handle, size, dir); 


debug_dma_sync_single_for_cpu( hwdev, dma_handle, size, dir); 


flush_write_buffers( ) ; 


| 


不 同 的 处 理 髓 系统 使 用 不 同 的 ops -> sync_single_for_cpu 操作 函数 。 值 得 注意 的 是 ， 
Linux x86 并 没有 实现 ops -> sync_single_for_cpu 国 数 ， 因 为 使 用 软件 指令 维护 Cache 一 致 性 
的 情况 在 x86 处 理 器 系统 中 并 不 多 见 。 而 Linux PowerPC 使 用 dma_direct_sync_single_range 限 
数 实现 ops -> sync_single_for_cpus 了 艺 数 ,该 函数 最 终 将 调用 __dma_sync 函数 。 这 两 个 图 数 
的 实现 如 源 代码 12-13 所 示 。 

源 代 码 12-13 dma_sync 函数 


static inline void dma_direct_sync_single_range( struct device * dev， 
dma_addr t dma_handle, unsigned long offset, size_t size， 


enum dma_data_direction direction ) 


dma_sync( bus_to_virt( dma_handle + offset) ，size，direction ) ; 


/* 
* make an area consistent. 
*/ 
void _ dma_sync(void * vaddr, size_t size, int direction) 
unsigned long start = (unsigned long) vaddr; 


unsigned long end = start + size; 
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switch (direction ) | 
case DMA_NONE: 
BUG( ); 
case DMA_FROM_DEVICE: 
/* 
* invalidate only when cache — line aligned otherwise there is 
the potential for discarding uncommitted data from the cache 


BA 


if ((start & (LI_CACHE_ BYTES - 1)) || (size & (LI_CACHE_ BYTES - 1))) 


flush_dcache_range( start, end); 
else 
invalidate_dcache_range( start, end); 
break ; 
case DMA_TO_DEVICE: /* writeback only */ 
clean_dcache_range( start, end); 
break; 
case DMA_BIDIRECTIONAL.: / x writeback and invalidate */ 
flush_dcache_range( start, end); 
break ; 


| 
EXPORT_ SYMBOL(_ dma_sync ) ; 


在 Linux PowerPC2 中 ，flush_dcache_range 、invalidate_dcache_range 和 clean_dcache_range 
函数 分 别 使 用 debf、dcbi 和 dcbst 指令 实现 。dcbi/dcbf/dcbst 指令 的 格式 为 dcbi/debf/dcbst 


rA, rB， 如 源 代码 12-14 所 示 。 
源 代码 12-14 dcbi/dcbf/dcbst 指令 格式 


ifrA =0 then a <— 640 else a <— ITA 
EA <— 320 || (a + rB)32.63 


InvalidateDataCacheBlock ( EA) // dcbi 
FlushDataCacheBlock // dcbf 
StoreDataCacheBlock( EA) // dcbst 


dcbf 、dcbi 和 dcbst 指令 的 详细 说 明 如 下 。 
e dcbi 指令 首先 在 Cache 中 检查 EA。 如 果 EA 在 Cache 中 命中 ， 将 直接 将 


EA 所 对 应 的 


Cache 行 的 状态 改变 为 IT， 无 论 这 个 Cache 行 原 来 的 状态 是 什么 ， 都 不 将 数据 回 写 到 存 


储 占 中 。 


e dcbf 指令 首先 在 Cache 中 检查 EA。 如 果 EA 在 Cache 中 命中 ， 则 继续 检查 Cache 的 状 


态 ， 如 果 为 M， 则 将 Cache 行 刷 新 到 内 存 ， 然 后 Invalidate 该 Cache 行 , 


”以 E500 V2 内 核 为 例 。 
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千 Cache 行 的 


状态 改变 为 I， 否则 直接 Invalidate 该 Cache 行 。 

e dcbst 指令 首先 在 Cache 中 检查 EA。 如果 地 址 在 Cache 中 命中 ， 则 继续 检查 Cache 的 
状态 ， 如 果 为 M， 则 将 Cache 行 回 写 到 内 存 ， 然 后 将 Cache 行 的 状态 改变 为 E; 否则 
不 做 任何 操作 。 

在 x86 处 理 器 系统 中 ， 也 存在 类 似 的 Cache 指令 。 如 INVD 、WBINVD 和 CLFLUSH 指 
令 。 其 中 INVD 指令 的 作用 是 Invalidate 处 理 器 中 的 内 部 Cache， 并 通过 FSB 总 线 周 期 mvali- 
date 外 部 Cache; 而 WBINVD 指令 是 在 Invalidate 内 部 和 外 部 Cache 之 前 ， 先 将 Cache 中 的 数 
据 回 写 ， 然 后 进行 Invalidate 操作 。 

但 是 这 两 条 指令 都 是 针对 整个 Cache， 而 不 是 针对 某 个 Cache 行 。 如 果 需 要 对 Cache 行 
进行 刷新 时 ，x86 处 理 器 可 以 使 用 CLFUSH 指令 操作 某 个 Cache 行 ， 该 指令 所 实现 的 功能 与 
dcbf 指令 类 似 。 单 从 操作 Cache 行 的 指令 的 角度 上 看 ，PowerPC 处 理 器 比 x86 处 理 器 好 得 多 ， 
因此 本 节 以 PowerPC 处 理 器 为 例 说 明 这 些 Cache 指令 在 不 同情 况 下 的 使 用 方法 。 

下 文 将 分 别 介绍 在 DMA 写 和 DMA 读 操作 中 __dma_sync 函数 的 工作 流程 。 假 设 在 一 个 
单 处 理 器 系统 2 中 ，Cache 行 长 度 为 512b， 而 且 PCI 设备 进行 DMA 读 写 操作 时 ， 硬 件 不 进行 
Cache 一 致 性 操作 。 

1，DMA 与 

在 外 部 设备 进行 DMA 写 操作 之 前 ， 需 要 使 用 _dma_syne 函数 同步 Cache 与 存储 器 中 的 
数据 。 有 许多 书籍 包括 Linux 系统 中 的 DMA - API 文档 ， 都 认为 在 DMA 写 操作 完成 后 ， 调 
用 _dma_syne 函数 Invalidate 数据 区 域 所 对 应 的 Cache 行 ， 处 理 器 就 可 以 使 用 来 自 设 备 的 数 
据 。 这 种 说 法 是 基于 设备 访问 的 数据 区 域 头 尾 都 是 Cache 行 对 界 的 情况 而 言 的 ， 如 果 数 据 区 
域 并 不 是 Cache 行 对 界 时 ， 这 种 做 法 将 引发 系统 错误 。 

假设 在 一 个 处 理 器 系统 中 ，Cache 行 长 度 为 64B。 当 一 个 PCI 设备 通过 DMA 写 操 作 ， 访 
问 0x1001 ~ 10FE 这 段 数 据 区 域 时 ， 这 段 数 据 区 域 将 占用 4 个 Cache 行 ， 而 且 并 不 是 Cache 
行 对 界 的 ， 如 图 12-9 所 示 。 


Ox1000 0x1040 0x1080 0x10C0 Ox10FF 


Ox1001 My Ox10FE 
图 12-9 ”DMA 写 访问 的 数据 区 域 不 对 界 


如 果 在 0x1000 ~0x10FF 这 段 数据 区 域 中 ，0x1000 和 0x10FF 字 节 曾经 被 改写 过 ， 那 么 
0x1000 ~103F 和 0x10C0 ~ 10FF 这 两 个 Cache 行 的 状态 为 M， 因 此 图 12-9 中 阴影 部 分 的 数 
据 与 存储 器 不 一 致 ， 而 且 为 处 理 器 系统 中 最 新 的 数据 。 

而 DMA 写 结束 后 ，0x1001 ~ 10FE 这 段 数据 区 域 被 PCI 设备 改写 ， 是 为 处 理 髓 系统 中 最 
新 的 数据 ， 此 时 这 段 数据 区 域 对 应 的 Cache 行 状态 仍然 为 M。 此 时 如 果 处 理 器 Invalidate 
0x1001 ~ 10FE 这 段 数据 区 域 对 应 的 Cache 行 ， 即 Invalidate 0x1000 ~0x10FF 这 段 数据 区 域 的 
Cache 行 时 ， 将 会 丢失 0x1000 和 0x10FF 这 两 个 字 节 中 保存 的 合法 数据 。 如 果 处 理 器 刷新 


日 在 SMP 系统 中 ，Cache 行 的 状态 转换 更 为 复杂 。 
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0x1001 ~10FE 这 段 数据 区 域 对 应 的 Cache 行 ， 即 刷新 0x1000 ~ 0x10FF 这 段 数据 区 域 的 
Cache 行 时 ， 将 丢失 所 有 来 自 PCI 设备 的 数据 ， 采 用 这 种 方法 问题 更 大 。 
通过 上 述 分 析 可 以 发 现 ， 如 果 在 DMA 写 完 成 后 ， 再 对 访问 的 数据 区 域 进行 Cache 同步 
操作 ， 将 可 能 引发 严重 的 Cache 一 致 性 问题 ， 从 而 导致 整个 系统 异常 。 

为 此 正确 的 方法 是 在 DMA 写 操作 之 前 ， 将 其 访问 的 数据 区 域 与 Cache 进行 一 致 性 操作 ， 
如 源 代码 12-13 中 “case DMA_FROM_DEVICE” 所 示 。 但 是 这 段 源 代码 仍然 有 较 大 的 问题 ， 
因为 这 段 代 码 在 处 理 数据 区 域 不 对 界 的 情况 时 ， 将 刷新 整个 数据 区 域 对 应 的 Cache 行 。 

这 种 做 法 不 会 产生 错误 ， 但 是 会 影响 效率 。 假 设 与 0x1000 ~ 0x10FF 这 段 数据 区 域 对 应 
的 Cache 行 的 状态 都 为 M， 那 么 这 段 程序 将 0x1000 ~ 103F、0x1040 ~ 0x107F、0x1080 ~ 
0x10BF 和 0x10C0 ~10FF 对 应 的 Cache 行 都 刷新 到 存储 器 中 ， 然 后 再 Invalidate 这 些 Cache 
行 。 而 实际 上 0x1040 ~0x10C0 这 段 数据 区 域 将 由 PCI 设备 重新 填写 ， 因 而 将 这 部 分 区 域 进 
行 刷新 然后 再 Invalidate 是 没有 意义 的 。 

正确 的 做 法 是 刷新 不 对 界 的 数据 区 域 0x1000 ~ 1040 和 0x10C0 ~ 10FF， 即 将 这 段 数据 区 
域 的 头 尾 刷新 即 可 ， 而 直接 Invalidate 中 间 的 数据 区 域 0x1040 ~10BF。 采 用 这 种 方法 将 有 效 
地 提高 系统 效率 。 

2. DMA 读 

外 部 设备 进行 DMA 读 操 作 之 前 ， 处 理 器 必须 保证 该 设备 访问 的 数据 区 域 与 Cache 一 致 。 
因此 需要 调用 dma_sync 函数 (dir 参数 为 DMA_TO_DEVICE) 将 Cache 中 的 数据 回 写 到 存 
储 器 。 该 函数 执行 完毕 后 ，Cache 中 的 所 有 数据 都 与 存储 器 一 致 ， 而 之 前 状态 位 为 M 的 
Cache 行将 更 改 为 下 。 经 过 这 个 Cache 同步 操作 后 ,设备 进行 DMA 读 操 作 就 可 以 从 存储 器 中 
获得 正确 的 数据 。 

此 处 还 有 一 个 细节 问题 值得 考虑 ， 就 是 DMA 读 操作 是 调用 debst 指令 回 写 Cache 行 ， 还 
是 调用 dcbf 指令 刷新 Cache 行 。 如 上 文 所 述 dcbf 和 debst 指令 都 将 状态 位 为 M 的 Cache 行 与 
存储 器 进行 同步 ， 只 是 debf 将 Cache 行 的 M 位 更 新 为 I， 而 dcbst 指令 将 Cache 行 的 状态 更 
新 为 EE。 使 用 这 两 个 指令 都 可 以 保证 DMA 读 的 数据 不 会 出 现 一 致 性 问题 。 

此 时 在 处 理 器 系统 中 ， 如 果 DMA 读 的 数据 将 不 会 被 处 理 器 使 用 时 ， 应 该 使 用 dcbf 指 
令 ，Invalidate 该 Cache 行 ， 从 而 该 Cache 行 可 以 被 其 他 进程 使 用 ;如果 DMA 读 的 数据 将 很 
快 被 处 理 器 使 用 时 ， 应 该 使 用 dcbst 指令 ， 回 写 该 Cache 行 ， 从 而 处 理 器 使 用 该 数据 时 ， 可 
以 从 Cache 而 不 是 存储 右 中 获得 。 


12.4 ”Capric 卡 的 延 时 与 带宽 


总 线 的 延 时 与 带宽 是 一 个 巨大 的 话题 ， 即 便 本 节 将 其 局 限 到 PCle 总 线 ， 局 限 到 Capric 
卡 ， 也 并 不 能 改变 这 个 话题 的 沉重 。 总 线 的 带宽 和 延 时 之 间 有 一 定 的 制约 关系 ,任何 一 个 处 
理 需 系统 都 希望 在 获得 巨大 总 线 带 宽 的 同时 ， 尽 量 缩小 访问 延 时 。 

在 处 理 器 系统 的 设计 中 ， 必 须 权 衡 “ 提 高 带宽 ”与 “缩小 延 时 ”之 间 的 关系 ， 以 组 建 
一 个 合理 的 应 用 系统 。 在 处 理 器 领域 ， 带 宽 是 指数 据 的 传送 速率 ， 即 1 秒 钟 传送 的 数据 大 
小 。 而 延 时 指 传送 处 理 一 个 数据 单元 所 需要 的 时 间 。 

片面 地 追求 带宽 显然 并 不 合理 ， 过 大 的 带宽 对 茶 些 应 用 并 不 合适 。 我 们 无 法 名 视 一 个 满 
了 34 


载 光 盘 的 火车 所 能 提供 的 数据 带宽 ， 这 辆 火车 至 少 能 传递 几 十 万 Pebibyte 大 小 的 数据 ， 而 且 
十 个 小 时 左右 就 能 从 北京 抵达 上 海 。 显 然 多 辆 火车 所 能 提供 的 带宽 非常 巨大 ， 但 是 我 们 仍然 
无 法 使 用 火车 传送 网 络 报 文 ， 因 为 十 个 小 时 的 延 时 是 许多 系统 应 用 无 法 容忍 的 。 

延 时 与 带宽 之 间 存 在 某 种 联系 ， 而 不 是 直接 对 立 关系 ， 并 不 是 带宽 越 大 延 时 也 越 大 ， 带 
宽 越 小 延 时 也 越 小 。 处 理 器 系统 设计 所 追求 的 目标 是 提高 带宽 的 前 担 下 ， 尽 可 能 掩盖 传送 延 
时 ， 组 成 一 个 可 实现 的 处 理 器 系统 。 

PCIe 总 线 作为 处 理 器 的 通用 局 部 总 线 ， 需 要 权衡 带宽 和 延 时 之 间 的 关系 ， 满 足 在 处 理 
器 系统 中 多 数 应 用 的 需求 ， 而 非 包罗 万 象 。PCIe 总 线 能 够 满足 ， 绝 大 多 数 处 理 器 系统 ， 特 
别 是 PC 系统 中 的 显卡 、 硬 盘 ， 声 卡 和 一 些 慢 速 设 备 与 处 理 器 之 间 的 数据 传送 ， 但 是 对 于 一 
些 延 时 要 求 较 高 的 应 用 并 不 适用 。 

当 一 个 网 络 设备 需要 以 1Gb/10Gb 的 速率 “ 线 速 传送 ”64B 大 小 的 网 络 数据 报 文 时 ，PCIe 
总 线 显 得 力不从心 ， 通 常 这 种 网 络 设备 需要 直接 与 处 理 器 的 FSB 相连 ， 以 尽量 缩短 传送 延 时 。 
在 许多 处 理 器 系统 中 ， 如 Freescale 的 P4080 处 理 器 ，RMI 的 XLP832 、Cavium 的 CN6335 处 理 
器 ， 网 络 设备 与 FSB 直接 相连 ， 并 在 追求 最 大 带宽 的 同时 ， 尽 量 减少 访问 延 时 。 

在 x86 处 理 器 系统 中 ， 可 以 使 用 QPI (QuickPath Interconnect) 连接 这 样 的 高 性 能 网 卡 。 
但 是 目前 在 PC 领域 中 ， 高 性 能 网 卡 依然 使 用 PCIe 总 线 进 行 连接 。 

在 一 个 处 理 器 系统 中 ， 为 掩盖 传送 延 时 ， 通 常 使 用 “流水 线 ”技术 ， 当 数据 传送 的 延 
时 增加 时 ,“ 流 水 线 ” 所 使 用 的 资源 也 随 之 增加 ， 并 很 容易 到 达 处 理 器 系统 所 不 能 忍受 的 范 
围 。 本 章 讲述 在 PCIe 总 线 中 ， 延 时 与 带宽 间 的 关系 ， 以 及 存在 的 问题 。PCIe 总 线 基于 TLP 
进行 数据 传递 ， 因 此 本 节 所 强调 的 带宽 与 延 时 与 TLP 直接 相关 。 

在 本 节 中 ，PCIe 总 线 的 带宽 指 每 秒 钟 传送 的 “TLP 中 有 效 数 据 “的 大 小 ， 即 PCIe 总 线 的 
有 效 带 宽 。 该 定义 与 PCle 总 线 的 链 路 带宽 不 同 。 如 PCle V2. 1 总 线 规范 链 路 带宽 为 SGCT/s， 而 
这 个 带宽 需要 去 掉 物 理 层 8/10b 转换 ， 以 及 PCle 总 线 的 协议 开销 后 才能 得 到 PCIe 总 线 的 有 
效 带宽 。PCIe 总 线 的 有 效 带 宽 与 许多 因素 相关 ， 包 括 协 议 开销 、TLP Payload 的 大 小 、 传 送 
延 时 、 流 量 控制 等 因素 相关 ， 当 然 最 重要 的 因素 依然 是 PCIe 总 线 的 链 路 宽度 。 

PCIe 总 线 的 延 时 指 一 个 存储 器 请 求 从 产生 到 结束 的 时 间 。 值 得 注意 的 是 存储 器 读 与 存 
储 器 写 TLP 的 延 时 计算 有 所 不 同 ， 存 储 器 写 TLP 产生 于 发 送 端 而 结束 于 接收 端 ， 仅 计算 单 
向 延 时 ; 而 存储 器 读 请 求 TLP 产生 于 发 送 端 ， 接 收 端 将 存储 器 读 请 求 TLP 转换 为 存储 器 读 
完成 TLP， 再 发 送 给 发 送 端 ， 需 要 计算 双向 延 时 。 


12.4.1 TLP 的 传送 开销 


在 PCIe 总 线 中 ，TLP 产生 于 事务 层 ， 并 在 通过 PCIe 总 线 的 链 路 层 与 物理 层 时 ， 加 入 若 
干 前 绥 和 后 缀 后 ， 才 能 经 由 PCIe 端口 发 送 。PCIe 总 线 定义 了 多 种 TLP， 本 章 重 点 关心 与 存 
储 器 读 写 相关 的 TLP， 包 括 存储 器 写 TLP、 存 储 器 读 请 求 TLP 和 存储 器 读 完成 TLP。 这 些 
TLP 报 文 的 通用 格式 如 图 12-10 所 示 。 


1 Byte 2 Byte 3~4DW 0 ~ 1024 DW 1 DW 1DW 1 Byte 


Sequence ID| TLP Head Data Payload ECRC | LCRC 


图 12-10 PCIe 总 线 TLP 格式 
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由 上 图 所 示 ， 一 个 PCIe 设备 发 送 TLP 报 文 时 ， 在 经 过 数据 链 路 层 和 物理 层 时 ， 需 要 加 
上 若干 前 缀 和 后 级 。 

(1) Start 和 End 前 后 缀 由 物理 层 添 加 ， 表 示 一 个 TLP 的 开始 与 结束 ， 各 由 一 个 字 节 组 
成 ， 用 于 物理 层 同 步 TLP 发 送 与 接收 。 

(2) Sequence ID 和 LCRC 前 后 级 由 数据 链 路 层 添加 ， 存 放 TLP 的 识别 号 和 数据 链 路 层 
的 CRC 校 验 , 分 别 由 2 B 和 1DW 组 成 。 

(3) TLP Head 前 缀 描述 TLP 的 属性 ， 由 3 ~4 个 DW 组 成 。 

(4) ECRC 后 级 存 放 TLP 在 事务 层 的 CRC 校 验 ， 该 字段 可 选 。 

(5) 而 Data Payload 是 真正 的 有 效 负载 ， 其 长 度 在 0 ~ 1024DW 之 间 。 由 上 文 所 述 ，TLP 
的 有 效 负载 长 度 由 PCle 设备 的 Max_Payload_Size 参数 确定 ， 该 字段 通过 上 下 游 链 路 进行 协 
商 后 获得 。 目 前 在 多 数 处 理 器 系统 中 ，PCIe 设备 使 用 的 Max_Payload_Size 参数 为 128B 或 者 
256 B。 

我 们 假设 TLP 使 用 3DW 的 报 文 头 ， 而 且 不 需要 ECRC 校 验 ， 根据 图 12-10， 在 一 个 
TLP 中 ，Data Payload 所 占 的 比例 如 公式 12-11 所 示 。 

Payload_Ratio = Payload/ ( Payload +20 ) (12-11) 

假设 PCIe 设备 的 Max_Payload_Size 参数 为 256 B 时 ， 根 据 以 上 公式 可 以 得 出 该 PCIe 设 
备 最 大 的 Payload_Ratio = 256/(256 +20) =92.8% 。 但 是 TLP 在 PCIe 链 路 中 进行 传送 时 ， 
远 不 能 获得 Payload_Ratio 大 小 的 链 路 带宽 。TLP 在 传送 过 程 中 ， 需 要 通过 PCle 总 线 的 事务 
层 、 数 据 链 路 层 和 物理 层 ， 因 此 必须 考虑 这 些 协议 所 带 来 的 开销 。 

1. 事务 层 的 开销 

事务 层 的 开销 需要 分 存储 器 写 和 存储 器 读 两 种 情况 讨论 。 在 PCIe 总 线 中 ， 存 储 器 写 请 
求 TLP 使 用 Posted 总 线 事务 ， 而 存储 器 读 请 求 TLP 使 用 Split 总 线 事务 。 在 这 两 种 情况 之 下 ， 
事务 层 的 开销 不 同 。 

PCIe 设备 进行 DMA 写 的 过 程 较为 简单 ， 当 PCIe 设备 将 一 个 4KB 大 小 的 数据 传送 到 存 
储 器 时 ， 首 先 将 4KB 数据 封装 到 多 个 存储 器 写 请 求 TLP 中 ， 然 后 发 向 RC， 其 中 每 个 TLP 最 
大 的 Payload 为 Max_Payload_Size。 

PCIe 设备 的 Max_Payload_Size 参数 由 PCIe 链 路 协商 确定 ， 目 前 x86 处 理 器 系统 RC 的 
Max_Payload_Size 为 128 B 或 者 256 B， 所 以 与 RC 直接 相连 的 PCIe 设备 ， 其 Max_Payload_ 
Size 参数 只 能 为 128 B 或 者 256 B。 由 公式 12-11， 可 以 计算 出 与 Max_Payload_Size 参数 对 应 
的 Payloadq_Ratio， 并 由 此 推算 存储 器 写 TLP 在 事务 层 上 的 开销 。 

PCIe 设备 进行 DMA 读 的 过 程 略微 复杂 。 首 先 PCIe 设备 向 RC 发 送 存储 器 读 请 求 TLP， 
当 RC 收 到 这 个 存储 器 读 请 求 TLP 后 ， 将 从 存储 器 中 获得 数据 ， 然 后 组 成 一 个 或 者 多 个 存储 
器 读 完 成 TLP， 并 将 其 传送 给 PCIe 设备 。 

存储 器 读 完 成 TLP 能 请 求 的 数据 大 小 为 MRRS (Max_Read_Request_Size ) ， 该 参数 的 大 
小 为 128 B ~4096 B。 如 果 PCIe 设备 进行 DMA 读 的 大 小 超过 该 参数 时 ， 将 以 该 参数 为 界 ， 
向 RC 发 出 多 个 存储 器 读 请 求 TLP。 而 RC 可 以 使 用 一 个 存储 器 读 完成 报 文 传递 所 有 数据 ; 
也 可 以 以 RCB 为 边界 ， 使 用 多 个 存储 器 读 完成 报 文 传递 所 有 数据 。 大 多 数 RC 使 用 后 一 种 
方式 传递 存储 器 读 完 成 TLP， 而 且 一 次 存储 器 读 完成 报 文 的 大 小 也 不 超过 RCB 。 本 章 以 这 种 
方式 为 例 分 析 存 储 器 读 TLP 在 事务 层 中 的 开销 。 
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假设 存储 器 读 请 求 TLP 头 的 大 小 为 3DW， 而 且 报 文 头 中 不 包含 ECRC 校 验 。PCIe 设备 
进行 DMA 读 的 大 小 恰好 为 MRRS 时 ，RC 需要 使 用 MRRS/RCB 个 存储 器 读 完成 报 文 传递 数 
据 。 此 时 一 次 DMA 读 操 作 中 Data Payload 所 占 的 比例 如 公式 12-122 所 示 。 

Payload_Ratio = MRRS/( MRRS +3 x4 +3 x4 x MRRS/RCB) (12-12) 

当 MRRS 为 512B， 而 RCB 为 64B 时 ，Payload_Ratio = 512/(512 +12 +12*8) =~ 
82. 6% 。 由 以 上 分 析 可 以 发 现 PCIe 设备 进行 DMA 读 在 事务 层 上 的 开销 大 于 DMA 写 在 事务 
层 上 的 开销 ， 这 也 是 PCIe 设备 DMA 写 的 速度 略 高 于 DMA 读 的 主要 原因 。 

除了 事务 层 的 开销 之 外 ，DMA 读 操作 的 数据 传送 路 径 也 长 于 DMA 写 ， 因 而 访问 延 时 大 
于 DMA 写 操作 的 访问 延 时 ， 这 也 为 DMA 读 逻 辑 的 设计 带 来 了 不 小 的 麻烦 。 从 第 12.2.2 节 
中 ， 也 可 以 发 现 DMA 读 人 逻辑 的 设计 远 比 DMA 写 逻 辑 的 设计 复杂 。 

2. 链 路 层 的 开销 

由 图 12-10 所 示 ， 链 路 层 向 TLP 添加 Sequence ID 和 LCRC 前 后 级 ， 这 些 开销 已 经 在 上 
文中 计算 ， 本 小 节 不 再 重复 计算 这 些 开销 。 本 小 节 所 关心 的 链 路 层 开销 由 两 部 分 组 成 ， 一 个 
是 ACK/NAK 协议 的 开销 ， 另 一 个 是 流量 控制 所 带 来 的 开销 。 如 第 7.2 节 所 示 ， 发 送 方 在 发 
送 TLP 时 ， 首 先 将 这 些 TLP 放 和 到 Replay Buffer 中 ， 直 到 收 到 接收 方 的 ACK 报 文 后 ， 才 能 
确认 该 TLP 已 经 正确 地 被 接收 方 接收 ; 如果 收 到 接收 方 NAK 报 文 ， 则 表示 部 分 TLP 没有 被 
正确 接收 ， 需 要 重新 发 送 这些 TLP。 这 些 ACK/NAK 报 文 将 占用 部 分 链 路 带宽 。 

在 PCIe 设备 的 实现 过 程 中 ,设计 者 可 以 调整 TLP 接收 个 数 的 阀 值 ， 这 个 阔 值 的 定义 为 
接收 端 收 到 多 少 TLP 后 ， 给 发 送 端 提供 一 次 ACK/NAK DLLP。 该 靖 值 决定 了 数据 接收 端 发 
送 ACK/NAK 报 文 的 间隔 。 

该 闪 值 越 大 ， 则 发 送 端的 Replay Buffer 也 将 随 之 增 大 ， 否 则 发 送 端 无 法 将 数据 及 时 填 入 
Replay Buffer， 从 而 阻塞 了 发 送 流 水 ， 并 影响 PCIe 总 线 的 传送 效率 ; 如 果 该 闽 值 越 小 ， 则 接 
收 端 需要 发 送 较 多 的 ACK/NAK 报 文 给 接收 端 ， 也 会 影响 PCle 总 线 的 效率 。 因 此 接收 端 需 
要 合理 地 设置 ACKZNAK 的 阅 值 ， 以 最 大 程度 地 利用 PCIe 总 线 的 带宽 。 

在 链 路 层 的 设计 中 ， 需 要 选择 合适 的 Replay Buffer 的 大 小 。 如 果 Replay Buffer 过 小 ， 事 
务 层 无 法 及 时 地 将 TLP 发 送 到 Replay Buffer， 从 而 造成 TLP 发 送 流水 线 的 中 断 。 而 保存 在 
Replay Buffer 中 的 报 文 需要 得 到 对 端 设备 的 确认 报 文 后 ， 才 能 释放 。 

因此 可 以 发 现 Replay Buffer 的 大 小 ， 只 需要 保证 事务 层 发 送 TLP 时 ， 有 足够 的 缓冲 即 
可 。Replay Buffer 的 大 小 与 PCIe 链 路 的 延 时 相关 。 在 实现 中 ，Replay Buffer 不 能 过 大 ， 和 否则 
将 使 用 较 多 的 芯片 资源 。 

在 链 路 层 中 ， 除 了 ACKZNAK 报 文 的 开销 外 ， 流 量 控制 报 文 也 需要 占用 PCle 总 线 的 链 
路 开销 。PCIe 总 线 使 用 Credit - Based 流量 控制 策略 ， 发 送 端 需要 保证 接收 端 有 足够 的 缓冲 
之 后 才能 发 送 报 文 ， 而 且 接收 端 需要 按照 某 种 策略 及 时 使 用 FC Update 报 文 ， 向 发 送 端 通知 
剩余 的 数据 缓冲 。 因 此 流量 控制 也 需要 占用 一 些 PCIe 总 线 的 带宽 。 在 PCIe 总 线 中 ， 流 量 控 
制 是 基于 “ 端 到 端 ” 的 ， 而 且 PCIe 总 线 并 没有 规定 PCIe 设备 使 用 的 流量 算法 ， 因 此 流量 控 
制 对 PCIe 总 线 带宽 的 影响 与 设备 相关 ， 并 没有 一 个 统一 的 公式 。 


@ 该 公式 没有 计算 物理 层 和 数据 链 路 层 报 文 头 的 开销 。 
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3. 物理 层 的 开销 

在 PCIe V2.1 总 线 规范 中 ，TLP 在 物理 层 中 还 需要 进行 8/10b 转换 ， 这 个 转换 将 极 大 地 
降低 PCIe 总 线 的 实际 链 路 带宽 ， 而 且 在 PCIe 总 线 中 ， 这 种 带宽 的 浪费 是 无 法 避免 的 。 在 
PCle V3. 0 规范 中 ， 这 个 8/10b 转换 被 升级 为 128/130 转换 。1287130 转换 将 极 大 节约 PCIe 
链 路 带宽 的 浪费 。 但 是 无 论 如 何 ，TLP 在 发 送 过 程 中 ， 仍 然 会 因为 这 种 转换 浪费 PCIe 链 路 
的 一 些 带 宽 。 

除了 8/10b 转换 之 外 ， 物 理 层 为 了 解决 接收 时 钟 与 逻辑 时 钟 间 的 漂移 所 带 来 的 问题 ， 
一 个 Lane 需要 在 发 送 1180 ~ 1538 个 字符 后 ， 发 送 一 个 SKIP 序列 进行 时 钟 补偿 。 这 种 定时 
的 时 钟 补偿 序列 也 将 浪费 PCIe 链 路 的 部 分 带宽 。 


12. 4.2 ”PCIe 设备 的 DMA 读 写 延 时 


上 节 简 要 介绍 了 影响 PCIe 设备 进行 数据 传递 的 因素 ， 无 论 设计 者 采用 什么 样 的 设计 方 
式 ，TLP 在 通过 事务 层 、 链 路 层 和 物理 层 时 都 会 受到 这 些 因 素 的 影响 。 但 是 不 同 的 设计 方法 
依然 会 极 大 影响 PCIe 总 线 的 使 用 效率 。 

本 文中 出 现 的 Capric 卡 是 一 个 很 糟糕 的 设计 ， 在 这 个 设计 中 ， 并 没有 使 用 流水 线 机 制 
来 掩盖 PCIe 总 线 的 延 时 ， 因 此 该 卡通 过 PCIe 总 线 进 行 DMA 读 时 的 效率 并 不 高 。 

1. Capric 卡 DMA 写 的 效率 

在 Capric 卡 中 ，DMA 写 操作 由 多 个 步骤 组 成 ， 并 由 Capric 卡 的 硬件 逻辑 和 处 理 器 的 中 
断 处 理 机 制 协调 完成 ， 其 步骤 如 图 12-11 所 示 。 


D0 1 D0 D1 ! DI | 要 D1 | 20ns | 
PE 
| 1 | | 1 | | 1 

,。[ 填写 寄存 器 启动 ed 处 理 器 执行 中 

处 理 器 | 。 DMA 写 操作 人 断 处 理 程序 


Capric 卡 


Capric 卡 收 到 处 理 
器 命令 ,然后 发 送 
存储 器 写 TLP 报 文 


图 12-11 Capric 卡 的 DMA 写 过 程 


首先 处 理 器 填写 Capric 卡 的 WR_DMA_ADR WR_DMA_SIZE 和 DCSR2 寄存 器 ， 经 过 延 
时 D0 之 后 ， 这 些 命令 陆续 到 达 Capric 卡 。 其 中 D0 的 大 小 与 Capric 卡 连接 在 人 处理 器 系统 中 
的 位 置 相关 ， 而 与 Capric 卡 的 设计 无 关 。 如 果 Capric 卡 直 接 与 RC 相连 接 ， 则 D0 的 值 较 小 ; 
如 果 Capric 卡通 过 多 级 Switch 之 后 再 与 RC 连接 ， 则 D0 较 大 。 

Capric 卡 收 到 处 理 器 的 DMA 写 请 求 后 ， 将 向 RC 连续 发 送 存 储 器 写 TLP， 并 由 RC 将 数 
据 写 入 到 主 存储 器 。Capric 卡 根据 WR_DMA_SIZE 寄存 器 的 数值 ， 将 数据 分 解 为 多 个 存储 器 
写 请 求 TLP， 其 中 每 个 存储 器 写 请 求 TLP 的 有 效 负载 不 超过 Max_Payload_Size 参数 ， 本 节 假 
设 该 参数 的 大 小 为 128 B。 
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假定 Capric 卡 使 用 100 MHz? 的 时 钟 ， 而 内 部 总 线 宽度 为 64 位 ， 此 时 Capric 卡 内 部 总 线 
的 带宽 可 以 达到 800 MB/s， 该 值 非常 接近 x4 PCIe 链 路 所 能 提供 的 有 效 带宽 ; 存储 器 写 TLP 
使 用 3DW 的 报 文 头 且 不 使 用 ECRC 校 验 ， 而 每 个 存储 器 写 TLP 的 最 大 有 效 负 载 为 128B 
(32DW) 。 因 此 在 Capric 卡 中 ， 一 个 存储 器 写 TLP 的 最 大 长 度 为 35DW， 此 时 Capric 卡 需要 
使 用 18 (实际 值 为 17.5) 个 时 钟 周期 才能 将 这 个 TLP 发 送出 去 ， 因 此 在 Capric 卡 中 D1 的 
大 小 为 180 ns。 

Capric 卡 将 存储 器 写 TLP 发 送 完 毕 后 ， 将 向 RC 发 送 MSI 报 文 ，MSI 报 文 也 是 一 种 存储 
器 写 TLP，Capric 卡 使 用 两 个 时 钟 周 期 ， 即 20ns 即 可 将 该 报 文 发 送出 去 。RC 在 等 待 一 段 延 
时 后 ， 将 陆续 收 到 存储 器 写 请 求 TLP1 ~ N 和 MSI 报 文 ， 这 段 延 时 为 TLP 从 EP 到 RC 的 延 
时 ， 约 等 于 D0。 

处 理 器 收 到 MSI 报 文 后 ， 将 执行 中 断 处 理 程序 ，Capric 卡 的 中 断 处 理 例 程 通过 RC 读 取 
中 断 控 制 状态 寄存 器 INT_REG ， 并 结束 整个 DMA 写 操作 。HOST 处 理 器 读 取 中 断 控 制 状 态 
寄存 器 的 开销 绝对 不 能 忽略 ， 因 为 这 个 读 取 过 程 首先 是 RC 发 送 存 储 器 读 请 求 TLP， 当 Cap- 
ric 卡 收 到 这 个 TLP 后 再 向 RC 发 送 存储 器 读 完成 TLP， 其 访问 延 时 为 2 x D0。 

假设 Capric 卡 一 次 DMA 写 的 大 小 为 X 字 节 2， 则 这 次 DMA 写 所 需 的 时 间 T 如 公式 
12-13 所 示 。 


T,,, =DO + DO + X/128 x D1 +20+2 xDO (12-13) 
其 中 Tj 的 值 越 小 ，Capric 卡 传送 X 字 节 的 数据 所 需 的 时 间 也 越 短 。 但 是 以 上 公式 并 
没有 考虑 Capric 在 DMA 写 过 程 中 ， 因 为 数据 缓冲 不 足 而 暂时 中 断 存储 器 写 TLP 发 送 流水 线 
的 情况 ， 而 且 忽略 了 中 断 处 理 例 程 所 需 的 切换 与 执行 时 间 。 
由 以 上 公式 ， 可 以 发 现 当 D0 越 大 Tu, 也 越 大 。 但 是 当 X 越 大 时 ，D0 在 Ti 中 所 占 的 比 
重 越 小 ， 在 一 个 处 理 器 系统 中 ，D0 的 大 小 是 Capric 卡 无 法 控制 的 ， 该 值 的 大 小 与 Capric 卡 在 
人 处理 器 系统 的 位 置 和 人 处理 器 系统 的 RC 确定 ， 属 于 系统 延 时 ， 我 们 假设 该 值 为 230 ns”。 根 据 以 
上 假设 ， 可 以 利用 公式 12-13 获得 Capric 卡 DMA 写 的 有 效 带 宽 ， 如 表 12-3 所 示 。 
表 12-3 X 的 大 小 与 DMA 写 有 效 带宽 的 关系 


Tdmaw (ns) Xx Capric 卡 的 最 大 有 效 带宽 
1200 128 B 106.7 MB/s 
1380 256 B 185.5 MB/s 
1740 512 B 294. 3 MB/s 
2460 1 KB 416. 3 MB/s 
3900 2 KB 525. 1 MB/s 
6780 4 KB 604. 1 MB/s 
12540 8 KB 653. 2 MB/s 
24060 16 KB 681.0 MB/s 


外 ”实际 上 LogiCORE 只 能 使 用 100 MHz 或 者 250 MHz 的 内 部 时 钟 ， 但 是 笔者 没有 无 法 在 FPGA 内 部 运行 250 MHz 的 时 
四 X 可 以 被 128 整除 。 
全 在 Tylersburg EP 平 台中 ， 这 个 系统 延 时 大 于 250ns。 
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由 表 12-3 所 示 ，X 越 大 ，Capric 卡 的 有 效 带 宽 也 越 高 ， 因 此 适当 提高 X 的 大 小 将 有 效 
提高 Capric 卡 DMA 写 的 传送 效率 。 

2. Capric 卡 DMA 读 的 效率 

在 Capric 卡 中 ，DMA 读 的 过 程 比 DMA 写 过 程 略微 复杂 一 些 。 因 为 DMA 读 是 由 两 部 分 
组 成 的 ， 首 先 Capric 卡 向 RC 发 起 存储 器 读 请 求 TLP; 当 RC 从 存储 器 获得 数据 后 ， 再 向 
Capric 卡 发 送 存储 器 读 完 成 TLP， 其 实现 过 程 如 图 12-12 所 示 。 


处 理 器 

DO 
Capric 卡 

ee 存 全 加 读 请 来 TLPI 
存储 器 读 请 求 TP 
中 存储 品读 请 求 TRN 
20ns RC 从 存储 器 中 获得 
20ns | Capric 卡 的 数据 1。 。 RC 发送 一 个 存储 器 读 


1 存储 品读 完成 了 LP1 | > D3<D2 Es 
ee < -~ ”LogiCORE 接收 存储 器 读 
| 存储 器 读 完 成 TLP2 下 完成 TLP 的 时 间 为 D2 


Capric 卡 收 到 所 有 数据 


发 送 MSI 报 文 


理 器 执行 中 断 
处 理 程序 


图 12-12 ”Capric 卡 的 DMA 读 过 程 


如 上 图 所 示 ，Capric 卡 的 DMA 读 过 程 如 下 所 示 。 

(1) 首先 处 理 器 填写 Capric 卡 的 寄存 器 启动 DMA 读 。 

(2) Capric 卡 在 等 待 D0 这 段 延 时 后 ， 收 到 这 个 命令 ,之 后 向 RC 提交 存储 器 读 请 求 
TLP。 假 设 Capric 卡 一 共 需 要 N 个 存储 器 读 请 求 TLP 才能 发 送 完 成 整个 请 求 ， 而 且 需 要 Dn 
这 段 时 间 才 能 将 完成 这 些 操作 。 而 且 存储 器 读 请 求 TLP 到 达 RC 的 延 时 也 为 D0。 

(3) 处 理 器 在 等 待 D0 + D0 这 段 延 时 后 ， 将 开始 接收 存储 器 读 请 求 TLP， 并 从 主 存储 髓 
获得 相应 的 数据 ， 并 组 织 存储 器 读 完 成 报 文 发 向 Capric 卡 。RC 从 开始 接收 存储 器 读 请 求 
TLP 到 接收 最 后 一 个 存储 器 读 请 求 TLP 的 时 间 延 时 为 Dn。 其 中 Dn 也 与 Capric 卡 发 送 全 部 存 
储 器 读 请 求 的 延 时 相同 。 

(4) RC 收 到 来 自 Capric 卡 的 存储 器 读 请 求 TLP 后 ， 开 始 发 送 存 储 器 读 完 成 报 文 ， 其 中 
Capric 卡 接收 存储 器 读 请 求 TLP 与 Capric 卡 发 送 存 储 右 读 完成 TLP 可 以 同步 进行 ， 因 此 Dn 
这 段 延 时 并 不 会 被 重复 计算 ， 而 仅 计 算 发 送 存储 器 读 完 成 报 文 的 流水 准备 时 间 ， 这 段 时 间 由 
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两 部 分 组 成 ，Capric 卡 发 送 一 个 存储 器 读 请 求 TLP 的 延 时 ， 和 RC 从 主 存储 器 中 读 取 数据 的 
延 时 。 我 们 假定 这 两 段 延 时 都 为 20 ns， 因 此 流水 准备 时 间 为 40 ns。 
(5) Capric 卡 经 过 D0 这 段 延 时 后 开始 接收 存储 器 读 完 成 TLP， 并 经 过 Dm 这 段 延 时 后 
将 接收 完毕 所 有 来 自 RC 的 存储 器 读 ， 并 获得 DMA 读 的 所 有 数据 。 
(6) Capric 卡 发 送 MSI 报 文 通知 处 理 器 DMA 读 完 成 。 
(7) 处 理 器 经 过 D0 这 段 延 时 后 ， 收 到 MSI 报 文 ， 并 开始 执行 中 断 处 理 程序 。 如 果 这 个 
中 断 处 理 程序 仍然 需要 读 取 中 断 控制 状态 寄存 器 ， 则 处 理 器 需要 2 x D0 这 段 延 时 时 间 之 后 
才能 完成 Capric 卡 的 DMA 读 。 
其 中 D3 延 时 为 RC 发 送 存储 器 读 完 成 TLP 所 需要 的 时 间 ，D3 延 时 与 RC 的 RCB 参数 相 
关 。 我 们 假设 RC 的 RCB 参数 为 64 B， 存储器 读 完成 中 的 Payload 为 64 B， 而 读 完 成 报 文 头 
为 12 B; 同时 假设 RC 使 用 128b 的 数据 总 线 ， 而 且 其 总 线 频率 为 667 MHz， 此 时 RC 发 送 的 
数据 报 文 已 经 超过 了 Capric 卡 接收 存储 器 读 完成 报 文 的 速度 ， 因 此 在 分 析 中 我 们 使 用 D2 延 
时 ， 其 中 D2 为 Capric 接收 存储 器 读 完成 报 文 的 延 时 。Capric 卡 接收 一 个 长 度 为 84 B 的 报 文 
时 间 约 为 110ns (实际 需要 10. 5 个 时 钟 周期 ) 。 因 此 Dm 的 计算 方法 如 公式 12-14 所 示 。 
D, =D2 xX/64 =110 x X/64 (12-14) 
由 以 上 分 析 ， 可 以 发 现在 PCIe 总 线 中 ，Capric 卡 DMA 读 比 DMA 写 的 过 程 略微 复杂 。 
假设 Capric 卡 一 次 DMA 读 的 大 小 为 X? 字 节 ， 则 这 次 DMA 读 所 需 的 时 间 Tu。 如 公式 12-15 
所 示 。 
T,,, =2 xDO +40 +110 xX/64 +2 xDO +2xDO (12-15) 
由 以 上 公式 ， 可 以 发 现 当 D0 越 大 时 Tj 也 越 大 , 但 是 当 X 越 大 时 ，D0 在 Ti, 中 所 占 
的 比重 越 小 。 假 设 D0 为 250 ns 时 ， 可 以 根据 公式 12-13 获得 Capric 卡 DMA 读 的 有 效 带 宽 ， 
如 表 12-4 所 示 。 


表 12-4 XX 的 大 小 与 DMA 读 有 效 带宽 的 关系 


Tumaw (ns) X Capric 卡 的 最 大 有 效 带宽 
1760 128 B 72.7 MB/s 
1980 256 B 129. 3 MB/s 
2420 512B 211.6 MB/s 
3300 1 KB 310.3 MB/s 
5060 2 KB 404.7 MB/s 
8580 4KB 477.4 MB/s 
15620 8 KB 524.4 MB/s 
29700 16 KB 551.6 MB/s 


由 表 12-3 和 表 12-4 可 以 发 现 ，Capric 卡 的 DMA 写 的 效率 略 高 于 DMA 读 的 效率 。 以 上 
有 关 Capric 卡 DMA 读 写 效率 是 一 个 粗 粒 度 的 分 析 ， 其 分 析 结 果 并 没有 考虑 数据 链 路 层 、 物 
理 层 和 流量 控制 的 开销 ， 也 没有 考虑 发 送 接收 流水 线 中 断 的 情况 ， 是 一 个 较为 理想 的 结果 。 


加 X 可 以 被 64 整除 。 
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笔者 的 实测 结果 与 表 12-3 和 表 12-4 有 些 差距 ， 因 为 在 x86 处 理 器 系统 中 ，D0 延 时 时 间 远 
大 于 250 ns。 


12.4.3 ”Capric 卡 的 优化 


由 上 两 节 的 分 析 可 以 发 现 ， 制 约 Capric 卡 DMA 读 写 带宽 的 主要 因素 由 两 部 分 组 成 ， 一 
是 PCIe 总 线 的 链 路 带宽 ， 二 是 在 数据 传送 过 程 中 的 延 时 。 使 用 更 宽 的 PCIe 链 路 ， 显 然 可 以 
增加 带宽 。Capric 卡 可 以 使 用 x8 的 PCIe 链 路 进一步 提高 物理 带宽 。 但 这 并 不 是 本 章 所 侧重 
的 提高 物理 带宽 的 方法 ， 因 为 在 一 个 给 定 的 处 理 器 系统 中 ，PCIe 链 路 的 带宽 是 一 定 的 ， 设 
计 者 已 经 充分 考虑 了 这 些 人 带宽。 本章 所 侧重 的 是 通过 减少 系统 延 时 以 提高 带宽 。 

1. 减少 处 理 器 对 Capric 卡 的 寄存 器 读 操作 

由 上 文 的 分 析 可 以 发 现 ， 处 理 器 读 取 Capric 卡 的 寄存 器 需要 通过 两 个 步骤， 一 是 发 送 
存储 器 读 请 求 TLP，EP 接收 到 这 个 读 请 求 后 ， 再 向 RC 发 送 存储 器 读 完成 TLP。 这 个 读 操作 
的 操作 延 时 为 2 xD0， 这 个 延 时 是 处 理 需 系统 所 无 法 承受 的 ， 更 为 重要 的 是 这 个 延 时 将 严重 
阻塞 设备 进行 DMA 读 写 操作 的 流水 线 。 

为 此 Capric 卡 将 处 理 器 需要 读 取 的 数据 ， 以 DMA 写 的 方式 预先 写 入 到 主 存储 器 ， 之 后 
处 理 器 只 需要 读 取 主 存储 器 即 可 获得 相应 的 信息 。 人 处理 器 读 取 主 存储 器 的 延 时 与 读 取 EP 中 
的 寄存 器 相 比 ， 可 以 忽略 不 计 。 而 Capric 卡 进 行 DMA 写 这 段 延 时 ， 可 以 掩盖 在 数据 传送 的 
流水 中 ， 从 而 不 会 影响 数据 传送 的 效率 。 

在 上 文中 ， 处 理 器 在 执行 中 断 处 理 程序 时 ， 还 需要 读 取 中 断 控制 状态 寄存 器 。 这 个 读 取 
寄存 带 的 开销 也 是 可 以 避免 的 ， 因 为 MSLAMSIX 中 断 机 制 支 持 “Multiple Message”。 在 Cap- 
ric 卡 的 实现 中 ， 发 送 完 成 、 接 收 完成 和 错误 处 理 中 断 请 求 可 以 与 独立 的 中 断 服务 例 程 对 应 。 
因此 可 以 有 效 避 人 免 在 发 送 完 成 、 接 收 完成 中 断 服务 例 程 中 读 取 中 断 控制 状态 寄存 带 ， 从 而 减 
少 系统 的 延 时 。 

2.， 流水 线 技术 

使 用 流水 线 技术 可 以 有 效 地 掩盖 数据 传送 中 的 延 时 ， 从 而 提高 带宽 。 在 PCle 设备 中 ， 
通常 使 用 Ring Buffer 技术 ， 实 现 多 路 DMA 读 写 操作 的 并 发 执行 ， 从 而 显著 提高 DMA 读 写 
的 效率 。 在 Cornus 卡 中 使 用 了 Ring Buffer 技术 ， 与 Capric 卡 相 比 ， 极 大 提高 了 DMA 读 写 效 
率 。 采 用 Ring Buffer 的 这 种 方式 也 称 为 Ring - Based DMA 机 制 。 

目前 Ring Buffer 技术 在 网 络 设 备 中 得 到 了 广泛 的 应 用 ， 在 此 类 网 卡 中 ， 分 别 为 发 送 部 
件 和 接收 部 件 设置 了 一 个 Ring Buffer， 在 Ring Buffer 中 的 每 一 个 Entry 对 应 一 个 DMA 描述 
符 。 使 用 该 技术 相当 于 在 网 卡 中 设置 了 多 个 虚拟 DMA 通路 ， 并 使 用 流水 机 制 掩盖 数据 传送 
中 的 延 时 ， 从 而 提高 数据 传送 的 有 效 带 宽 。 

Ring Buffer 机 制 还 可 以 进一步 升级 为 List/ Ring Buffer 机 制 。 所 请 List/ Ring Buffer 机 制 是 
为 发 送 部 件 和 接收 部 件 设 置 多 个 Ring Buffer， 从 而 进一步 提高 物理 链 路 的 利用 率 。 读 者 可 参 
阅 e1000e 系列 的 网 卡 ， 或 者 PowerPC 处 理 器 的 TSEC 控制 器 ， 以 了 解 Ring Buffer 和 List/ 
Ring Buffer 的 实现 机 制 。 本 节 对 此 不 做 进一步 描述 。 但 是 无 论 使 用 Ring Buffer 还 是 List/ Ring 
Buffer 机 制 都 很 难 进 一 步 提高 基于 PCIe 总 线 的 网 卡 的 数据 传送 率 。 

处 理 絮 可 以 根据 用 途 分 为 Control-Plane 处 理 器 和 Data-Plane 处 理 右 ，PCle 总 线 的 主要 功 
能 是 作为 Control- Plane 处 理 器 的 局 部 总 线 ， 并 不 是 Data- Plane 处 理 器 的 局 部 总 线 。 从 体系 结 
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构 的 角度 来 看 ， 基 于 PCle 总 线 的 网 络 设备 远 不 能 与 Data- Plane 处 理 需 的 网 络 设备 在 传送 效 
率 ， 尤 其 是 小 报 文 的 传送 效率 上 ， 一 较 高 低 。 


12.5 小 结 


本 章 通 过 Capric 卡 的 设计 实例 ， 讲 述 了 在 PCIe 体系 结构 中 ， 事务 层 的 硬件 实现 和 Linux 
We 
PCIe 总 线 并 不 重要 ， 但 是 系统 程序 员 需 要 深入 理解 相关 的 概念 

本 章 的 最 后 ， 简 单 分 析 了 影响 PCIe 'A 理解 这 I 
系统 设计 中 ， 选 择 最 合适 的 局 部 总 线 ， 以 构建 一 个 合理 的 处 理 右 系统 。 值 得 注意 的 是 ， 不 同 
的 局 部 总 线 所 适用 的 应 用 领域 并 不 相同 。 
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第 13 癌 PCIe 总 线 与 虚拟 化 技术 


目前 虚拟 化 技术 在 处 理 器 体系 结构 中 ， 已 经 占据 一 席 之 地 。 虚 拟 化 技术 由 来 已 入 ， 其 合 
义 也 较为 广泛 ， 多 个 进程 共享 一 个 CPU ， 多 个 进程 的 虚拟 空间 共享 同一 个 物理 内 存 等 一 系 
列 在 体系 结构 中 已 经 根深 蒂 固 的 概念 ， 都 可 以 归于 虚拟 化 技术 。 

本 章 所 强调 的 虚拟 化 技术 是 指 在 一 个 处 理 器 系统 2 中 运行 多 个 虚拟 处 理 器 系统 的 技术 。 
其 中 每 一 个 虚拟 处 理 避 系统 都 有 独立 的 虚拟 运行 环境 ， 包括 CPU、 内存 和 外 部 设备 。 在 这 
个 虚拟 环境 中 运行 的 操作 系统 彼此 独立 ， 但 是 这 些 操作 系统 仍 使 用 相同 的 物理 资源 。 

因此 处 理 器 需要 为 虚拟 化 环境 设置 专门 的 硬件 ， 以 文 持 多 个 虚拟 处 理 央 系统 在 一 个 物理 
环境 中 的 资源 共享 。 虚 拟 化 技术 的 核心 是 通过 VMM ( Virtual Machine Monitor) 集中 管理 物 
理 资 源 ， 而 每 个 虚拟 处 理 器 系统 通过 VMM 访问 实际 的 物理 资源 。 有 时 为 了 提高 虚拟 机 访问 
外 部 设备 的 效率 ， 虚 拟 处 理 器 系统 也 可 以 直接 访问 物理 资源 。 

在 一 个 处 理 器 系统 中 ， 这 些 物理 资源 包括 CPU、 主 存储 器 、 外 部 设备 和 中 断 。IA 处 理 
器 2 使 用 EPT (Extended Page Table) 和 VPID 技术 对 主 存储 器 进行 管理 ， 而 使 用 虚拟 中 断 控 
制 如 接管 中 断 请 求 以 实现 中 断 的 虚拟 化 。 目 前 这 些 技 术 较 为 成 熟 ， 对 这 些 内 容 感 兴趣 的 读者 
可 参阅 《系统 虚拟 化 一 一 原理 与 实现 )， 本 章 对 此 不 做 详细 分 析 。 

本 章 重 点 关注 的 是 VMM 对 外 部 设备 的 管理 ， 而 在 外 部 设备 中 重点 关注 对 PCI 设备 的 管 
理 。 在 一 个 处 理 吉 系统 中 ， 设 置 了 许多 专用 人 硬件， 如 IOMMU 、PCIe 总 线 的 ATS 机 制 、SR- 
IOV (Single Root IO Virtualization ) 和 MR-IOV (Multi-Root IO Virtualization ) 机 制 ， 便 于 
VMM 对 外 部 设备 的 管理 。 


13.1 IOMMU 


在 多 进程 环境 下 ， 处 理 器 使 用 MMU 机 制 ， 使 得 每 一 个 进程 都 有 独立 的 虚拟 地 址 空间 ， 
从 而 各 个 进程 运行 在 独立 的 地 址 空间 中 ， 互 不 干扰 。MMU 具有 两 大 功能 ， 一 是 进行 地 址 转 
换 ， 将 分 属 不 同 进程 的 虚拟 地 址 转换 为 物理 地 址 ， 二 是 对 物理 地 址 的 访问 进行 权限 检查 ， 判 
断 虚 实地 址 转换 的 合理 性 。 

在 多 数 操作 系统 中 ， 每 一 个 进程 都 具有 独立 的 页 表 存 放 虚 拟 地 址 到 物理 地 址 的 映射 关系 
和 属性 。 但 是 如 果 进 程 每 次 访问 物理 内 存 时 ， 都 需要 访问 页 表 时 ， 将 严重 影响 进程 的 执行 效 
率 。 为 此 处 理 器 设置 了 TLB (Translation Lookaside Buffer) 作为 页 表 的 Cache。 如 果 进 程 的 虚 
拟 地 址 在 TLB 中 命中 时 ， 则 从 TLB 中 直接 获得 物理 地 址 ， 而 不 需要 使 用 页 表 进 行 虚 实地 址 
转换 ， 从 而 极 大 提高 了 访问 存储 器 的 效率 。 

从 地 址 转换 的 角度 来 看 ，IOMMU 与 MMU 较为 类 似 。 只 是 IOMMU 完成 的 是 外 部 设备 地 


日 包括 SMP 系统 和 更 为 复杂 的 NUMA 结构 处 理 需 系统 。 
昌 本章 出 现 的 IA 处 理 器 是 指 Intel 的 x86-64 处 理 器 ， 而 不 是 指 Itanium 处 理 髓 。 
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址 到 存储 器 地 址 的 转换 。 我 们 可 以 将 一 个 PCI 设备 模拟 成 为 处 理 器 系统 的 一 个 特殊 进程 ， 当 
这 个 进程 访问 存储 器 时 使 用 特殊 的 MMU， 即 IOMMU ， 进 行 虚实 地 址 转换 ， 然 后 再 访问 存储 
器 。 在 这 个 IOMMU 中 ， 同 样 存 在 I0 页 表 存 放 虚 实地 址 转换 关系 和 访问 权限 ， 而 且 处 理 器 
为 了 加 速 这 种 虚实 地 址 的 转换 ， 还 设置 了 IOTLB 作为 I0 页 表 的 Cache。 单 纯 从 这 个 角度 来 
看 ,许多 HOST 主 桥 和 RC 也 具备 同样 的 功能 ， 如 PowerPC 处 理 器 的 Inbound 窗口 和 Out- 
bound 窗口 ， 也 可 以 完成 这 种 特殊 的 地 址 转换 。 但 是 这 些 窗 口 仅 能 完成 PCI 总 线 域 到 一 个 存 
储 器 域 的 地 址 转换 ， 无 法 实现 PCI 总 线 域 到 多 个 存储 器 域 的 转换 。 

目前 设置 IOMMU 的 主要 作用 是 支持 虚拟 化 技术 ， 当 然 使 用 IOMMU 也 可 以 实现 其 他 功 
能 ， 如 使 “ 仅 支 持 32 位 地 址 的 PCI 设备 ”访问 4GB 以 上 的 存储 器 空间 。IA 处 理 器 和 AMD 
处 理 器 分 别 使 用 VT-d4” 和 “IOMMU”， 实 现 外 部 设备 的 地 址 转换 。 这 两 种 技术 都 可 以 将 PCI 
总 线 域 地 址 空间 转换 为 不 同 的 存储 器 域 地 址 空间 ， 便 于 虚拟 化 技术 的 设计 与 实现 。 


13.1.1 IOMMU 的 工作 原理 


根据 虚拟 化 的 理论 ,假设 在 一 个 处 理 器 系统 中 存在 两 个 Domain， 其 中 一 个 为 Domain 1 ， 
而 另 一 个 为 Domain 2。 这 两 个 Domain 分 别 对 应 不 同 的 虚拟 机 ， 并 使 用 独立 的 物理 地 址 空间 
分 别 为 GPA1 (GPA 即 Guest Physical Address) 和 GPA2 空间 ， 其 中 在 Domain 1 上 运行 的 所 
有 进程 使 用 GPA1 空间 ， 而 在 Domain 2 上 运行 的 所 有 进程 使 用 GPA2 空间 。 

GPA1 和 GPA2 采用 独立 的 编码 格式 ， 其 地 址 都 可 以 从 各 自 GPA 空间 的 0x0000-0000 地 
址 开始 ， 只 是 GPAl1 和 GPA2 空间 在 System Memory 中 占用 的 实际 物理 地 址 HPA ( Host Physi- 
cal Address) 并 不 相同 ，HPA 也 被 称 为 MPA (Machine Physical Address) ， 是 处 理 器 系统 中 
真实 的 物理 地 址 。 而 PCI 设备 依然 使 用 PCI 总 线 域 地 址 空间 ，PCI 总 线 地 址 需要 通过 DMA- 
Remapping 逻辑 转换 为 HPA 地 址 后 ， 才 能 访问 存储 器 。DMA-Remapping 逻辑 的 组 成 结构 如 
图 13-1 所 示 。 


System Memory 


Domain 1 Domain 2 


Driver A Driver A 
IO Buffers IO Buffers 


Driver A 1 Driver B / 
IO Buffers | / LO Buffers | / 
/ / 


a 


所 路 


窑 - 便 ww 


DMA-Remmaping Hardware 


Device A Device B 


图 13-1 DMA-Remapping 的 实现 


在 以 上 处 理 器 模型 中 ， 假 设 存 在 两 个 外 部 设备 Device A 和 Device B。 这 两 个 外 部 设备 分 
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属于 不 同 的 Domain ， 其 中 Device A 属于 Domain 1， 而 Device B 属于 Domain 2。 在 同一 段 时 
间 内 ，Device A 只 能 访问 Domain 1 的 GPA1 空间 ， 也 只 能 被 Domain 1 操作 ; 而 Device B 只 
能 访问 GCPA2 空间 ， 也 只 能 被 Domain 2 操作 。Device A 和 Device B 通过 DMA-Remmaping 机 
制 最 终 访问 不 同 Domain 的 存储 絮 。 

使 用 这 种 方法 可 以 保证 Device A/B 访问 的 空间 彼此 独立 ， 而 且 只 能 被 指定 的 Domain 访 
问 ， 从 而 满足 了 虚拟 化 技术 要 求 的 空间 隔离 。 这 一 模型 远 非 完美 ， 如 果 每 个 Domain 都 可 以 
自由 访问 所 有 外 部 设备 当然 更 加 合理 ,但 是 单纯 使 用 VT-d 机 制 还 不 能 实现 这 种 访问 机 制 。 

在 这 种 模型 之 下 ，Device A/B 进行 DMA 操作 时 使 用 的 物理 地 址 仍然 属于 PCI 总 线 域 的 
物理 地 址 ，Device AZB 仍然 使 用 地 址 路 由 或 者 ID 路 由 进行 存储 需 读 写 TLP 的 传递 。 值 得 注 
意 的 是 虽然 在 x86 处 理 器 系统 中 ， 这 个 PCI 总 线 地 址 与 GPA 地 址 一 一 对 应 且 相 等 ， 但 是 这 
两 个 地 址 所 代表 的 含义 仍然 完全 不 同 。 

GPA 地 址 为 存储 器 域 的 地 址 ， 录 属于 不 同 的 Domain， 而 PCI 设备 使 用 的 地 址 依然 是 PCI 
总 线 域 的 物理 地 址 ， 只 是 在 虚拟 化 环境 下 ，PCI 设备 与 Domain 间 有 明确 的 对 应 关系 。 当 这 
个 PCI 设备 进行 DMA 读 写 时 ，TLP 首先 到 达 地 址 转换 部 件 TA (Translation Agent) ， 并 通过 
ATPTS (Address Translation and Protection Table) 后 将 PCI 总 线 域 的 物理 地 址 转换 为 与 CPA 
地 址 对 应 的 HPA 地 址 ， 然 后 对 主 存 储 器 进行 读 写 操作 。 其 转换 关系 如 图 13-2 所 示 。 


GPA1 存 储 器 二 


GPA2 存 储 器 域 
着 


隶属 于 Domainl  _-_----jpy ~ My 隶属 于 Domain2 


PCI Addressl [~、\ 4 
Im 一 一 
| / 


~ 


图 13-2 ”PCI 总 线 域 物理 地 址 与 HPA 的 关系 


在 上 图 所 示 的 处 理 器 系统 中 ， 存 在 两 个 虚拟 机 ， 其 使 用 的 地 址 空间 分 别 为 GPA Domainl 
和 GPA Domain2。 假 设 每 个 GPA Domain 使 用 1GB 大 小 的 物理 地 址 空间 ， 而 且 Domain 间 使 
用 的 地 址 空间 独立 ， 其 地 址 范围 都 为 0x0000-0000 ~ 0x4000-0000。 其 中 Domain 1 使 用 的 GPA 
地 址 空间 对 应 的 HPA 地 址 范围 为 0x0000-0000 ~0x3FFF-FFFF; Domain 2 使 用 的 GPA 地 址 空 
间 对 应 的 HPA 地 址 范围 为 0x4000-0000 ~ 0x7FFF-FFFF。 在 一 个 处 理 器 系统 中 ,不同 的 虚拟 
机 使 用 的 物理 空间 是 隔离 的 。 

在 这 个 处 理 器 系统 中 存在 两 个 PCIe 设备 ， 分 别 为 EP1 和 EP2， 其 中 EP1 隶属 于 Do- 
mainl ， 而 EP2 隶属 于 Domain2 ， 即 FEFP1 和 EP2 进行 DMA 操作 时 只 能 访问 Domainl 和 Do- 


加 ATPT 相当 于 IO 页 表 ， 每 一 个 Domin 都 具有 独立 的 IO 页 表 。 
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main2 对 应 的 HPA 空间 ,但 是 EP1 和 EP2 作为 一 个 PCle 设备 ， 并 不 知道 处 理 器 系统 进行 的 
这 种 绑 定 操作 ，EP1 和 EP2 依然 使 用 PCI 总 线 域 的 地 址 进行 正常 的 数据 传送 。 因 为 处 理 器 系 
统 的 这 种 绑 定 操作 由 TA 和 ATPT 决定 ， 而 对 PCIe 设备 透明 。 在 EP1 和 EP2 进行 DMA 操作 
时 ， 当 TLP 到 达 TA 和 ATPT， 经 过 地 址 转换 后 ， 才 能 访问 实际 的 存储 器 空间 。 

下 面 以 EP1 和 EP2 进行 DMA 写 操作 为 例 ， 说明 在 这 种 虚拟 化 环境 下 ， 不 同 种 类 地 址 的 
转换 关系 ， 其 步骤 如 下 所 示 。 

(1) Domainl 和 Domain2 填写 EPl1 和 EP2 的 DMA 写 地 址 和 长 度 寄存 器 启动 DMA 


其 中 EP1 最 终 将 数据 写 人 到 GPA1 的 0x1000-0000 ~0x1000-007F 这 段 数据 区 域 ， 而 EP2 
最 终 将 数据 写 入 到 GPA2 的 0x1000-0000 ~0x1000-007F 这 段 数据 区 域 。 然 而 EP1 和 EP2 仅 能 
识别 PCI 总 线 域 的 地 址 。Domainl 和 Domain2 填 和 人 EP1 和 EP2 的 DMA 写 地 址 为 0x1000- 
0000 ， 而 长 度 为 0x80， 这 些 地 址 都 是 PCI 总 线 地 址 。 

在 x86 处 理 器 系统 中 ， 这 个 地 址 与 GPAl1 和 GPA2 存储 器 域 的 地 址 恰好 相等 ， 但 是 这 个 
地 址 仍然 是 PCI 总 线 域 的 地 址 ， 只 是 由 于 IOMMU 的 存在 ， 相 同 的 PCI 总 线 地 址 ， 可 能 被 映 
射 到 相同 的 GPA 地 址 空间 ， 然 而 这 些 GPA 地 址 空间 对 应 的 HPA 地 址 空间 不 同 。 这 个 PCI 总 
线 地 址 仍然 在 RC 中 被 转换 为 存储 器 域 地 址 ， 并 由 TA 转换 为 合适 的 HPA 地 址 。 

(2) EP1 和 EP2 的 存储 器 写 TLP 到 达 RC。 

来 自 EPl 和 EP2 存储 器 写 TLP 经 过 地 址 路 由 最 终 到 达 RC， 并 由 RC 将 TLP 的 地 址 字段 
转发 到 TA 和 ATPT， 进 行 地 址 翻译 。 

EP1 和 EP2 使 用 的 IYO 页 表 已 经 事先 被 VMM 设置 完毕 ，TA 将 使 用 Domainl 或 者 Do- 
main2 的 VO 页 表 ， 进 行 地 址 翻译 。EP1 隶属 于 Domainl ， 其 地 址 0x1000-0000 (PCI 总 线 地 
址 ) 被 翻译 为 0x1000-0000 (HPA); 而 EP2 隶属 于 Domain2 ， 其 地 址 0x1000-0000 (PCI 总 
线 地 址 ) 被 翻译 为 0x5000-0000 (HPA) 。 值 得 注意 的 是 在 TA 中 设置 了 IOTLB ， 以 加 速 WO 
页 表 的 翻译 效率 ， 因 此 TA 并 不 会 每 次 都 从 存储 絮 中 查找 10 页 表 。 

(3) 来 自 EP1 和 EP2 存储 器 写 TLP 的 数据 将 被 分 别 写 入 到 0x1000-0000 ~ 0x1000-007F 
和 0x5000-0000 ~ 0x5000-007F 这 两 段 数 据 区 域 。 

(4) Domainl 和 Domain2 都 使 用 0x1000-0000 ~0x1000-007F 这 段 GPA 地 址 访问 来 自 EP1 
和 EP2 的 数据 ， 这 个 GPA 地 址 将 转换 为 HPA 地 址 ， 然 后 发 向 存储 器 控制 器 。 在 IA 处 理 器 
系统 中 ,使 用 EPT 和 VPID 技术 进行 GPA 地 址 到 HPA 地 址 的 转换 。 

IA 处 理 器 和 AMD 处 理 咒 使 用 不 同 的 技术 ,实现 TA 和 ATPT。 其 中 IA 处 理 器 使 用 VT-d 
技术 ， 而 AMD 使 用 IOMMU。 从 工作 原理 上 看 ， 这 两 种 技术 类 似 ， 但 是 在 实现 细节 上 ， 两 者 
有 较 大 区 别 。 


13.1.2 IA 处理 器 的 VT-d 


IA (Intel Architecture) 处 理 需 使 用 VT-d 技术 将 PCI 总 线 域 的 物理 地 址 转换 为 HPA 地 
址 。 这 个 映射 过 程 也 被 称 为 DMA Remapping。IA 处 理 器 系统 使 用 DMA Remapping 机 制 可 以 
辅助 虚拟 化 技术 对 外 部 设备 进行 管理 。 
在 IA 处 理 器 系统 中 ， 所 有 的 外 部 设备 都 是 PCI 设备 。 每 一 个 设备 都 唯一 对 应 一 个 Bus 
Number 、Device Number 和 Function Number， 为 此 IA 处 理 器 设置 了 一 个 专门 的 结构 ， 即 Root 
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Entry Table? ， 管 理 每 一 棵 PCI 总 线 树 。 在 这 种 结构 下 ， 每 一 个 PCI 设备 根据 其 Bus 、Dervice 
和 Function 号 唯一 确定 一 个 Context Entry。VT-d 将 这 个 结构 称 为 “Device to Domain Map- 
ping” 结 构 ， 如 图 13-3 所 示 。 


Address Translation 


(Device 31,Func 7) I 
Structures for Domain A 


Context Entry 255 
Context Entry 0 


Context-entry Table for Bus N 


(Device 0, Func 1) 
(Device 0, Func 0) 


(Bus 255) 


Root Entry 255 


Root Entry N 


Root Entry 0 


(Bus N) 


ee 


Context Entry 255 
Context Entry 0 


Context-entry Table for Bus 0 


(Bus 0) 


Root-entry Table 


Address Translation 
Structures for Domain B 


图 13-3 Device to Domain Mapping 结构 


VT-d 一 共 设 置 了 两 种 结构 描述 PCI 总 线 树 结构 ， 分 别 为 Root Entry 和 Context Entry。 其 
中 Root Entry 描述 PCI 总 线 ， 一 棵 PCI 总 线 树 最 多 有 256 条 PCI 总 线 ， 其 中 每 一 条 PCI 总 线 
对 应 一 个 Root Entry; 每 条 PCI 总 线 中 最 多 有 32 个 设备 ， 而 每 个 设备 最 多 有 8 个 Function ， 
其 中 每 一 个 Function 对 应 一 个 Context Entry, 因此 每 个 Context Entry 表 中 共有 256 表 项 。 

在 一 个 处 理 絮 系统 中 ， 一 个 指定 的 PCI Function 唯一 对 应 一 个 Context Entry， 这 个 Con- 
text Entry 指向 这 个 PCI Function 使 用 的 地 址 转换 结构 (Address Translation Structures) 。 当 一 
个 PCI Function 隶属 于 不 同 的 Domain 时 ， 将 使 用 不 同 的 地 址 转换 结构 ， 但 是 在 一 个 时 间 段 
里 ，PCI Function 只 能 使 用 一 个 地 址 转换 结构 ， 即 Context Entry 只 能 指向 一 个 Domain 的 地 址 
转换 结构 。 这 个 地 址 转换 结构 的 主要 功能 是 完成 PCI 总 线 域 到 HPA 存储 需 域 的 地 址 转换 。 

如 图 13-1 所 示 ， 当 一 个 设备 进行 DMA 操作 时 ，Domain 使 用 PCI 总 线 域 的 地 址 填写 这 
个 设备 和 与 DMA 转送 相关 的 寄存 器 。 当 这 个 设备 启动 DMA 操作 时 ， 将 使 用 PCI 总 线 地 址 ， 
之 后 通过 DMA Remapping 机 制 将 PCI 总 线 地 址 转换 为 HPA 存储 器 域 地 址 ， 然 后 将 数据 传送 
到 实际 的 物理 地 址 空间 中 。 而 Domain 通过 处 理 器 的 MMU 机 制 将 GPA 转换 为 HPA， 访问 物 
理 地 址 空间 。 

从 图 13-3 中 可 以 发 现 ， 每 一 个 Function 在 每 一 个 Domain 中 都 可 能 有 一 个 地 址 转换 结 
构 ， 以 完成 GPA 到 HPA 的 转换 ， 因 此 在 每 一 个 Domain 中 最 多 有 256 个 地 址 转换 结构 。 这 
些 结构 无 疑 将 占用 部 分 内 存 ， 但 是 并 不 会 产生 较 大 的 浪费 。 因 为 在 实际 设计 中 ， 同 一 个 Do- 


”如 果 处 理 器 系统 有 多 个 PCI 总 线 树 (Segment ) ， 则 需要 设备 多 个 Root Enby Table。 


main 下 的 所 有 PCI 设备 使 用 的 总 线 地 址 到 HPA 地 址 的 转换 结构 可 以 相同 。 因 此 在 实现 中 ， 
每 个 Domain 仅 使 用 一 个 地 址 转换 结构 即 可 。 

IA 处 理 器 使 能 VT-d 机 制 后 ，PCI 设备 进行 DMA 操作 需要 根据 Bus 、Device 和 Function 
号 确定 Context Entry， 之 后 使 用 图 13-4 所 示 的 方法 完成 PCI 总 线 地 址 到 HPA 地 址 的 转换 。 


63 39 38 30 29 21 20 12 11 0 
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4KB Page 


4KB Page Table 


4KB Page Table 


4KB Page Table 


图 13-4 VT-d 使 用 的 PCI 总 线 地 址 到 HPA 的 转换 机 制 


在 上 图 中 ，4KB Page Table 中 的 每 个 Entry 的 大 小 为 8B ， 因 此 在 计算 偏 移 时 ， 需 要 左 移 
3 位 ，PCI 总 线 地 址 通过 3 级 目录 ， 最 终 找 到 与 HPA 所 对 应 的 4KB 大 小 的 页 面 ， 从 而 完成 
PCI 总 线 地址 到 HPA 的 转换 。 值 得 注意 的 是 ，IA 处 理 需 还 支持 2MB (SP =1)、1GB (SP = 
2)、512GB (SP=3) 和 1TB (SP =4) 大 小 的 Super Page， 而 本 节 仅 使 用 了 4KB 大 小 的 
页 面 。 

为 了 加 快 PCI 总 线 地 址 到 HPA 地 址 的 转换 速度 ，IA 处 理 吉 分 别 为 Root Entry 和 Context 
Entry 设置 了 Context Cache 以 加 快 Context Entry 的 获取 速度 ， 同 时 还 设置 了 IOTLB 加 速 PCI 
总 线 地 址 到 HPA 地 址 的 转换 速度 。 

IOTLB 相当 于 IO 页 表 的 Cache， 当 一 个 PCI 设备 进行 DMA 操作 时 ， 首 先 在 IOTLB 中 
查找 PCI 总 线 地 址 与 HPA 地 址 的 映射 关系 ， 如 果 在 IOTLB 命中 时 ，PCI 设备 直接 获得 HPA 
地 址 进行 DMA 操作 ; 如 果 没 有 在 IOTLB 命中 ， 则 需要 使 用 图 13-4 中 所 示 的 算法 进行 PCI 
总 线 地 址 到 HPA 地 址 的 转换 。 

Intel 并 没有 公开 “没有 在 IOTLB 命中 ”的 实现 细节 ， 当 出 现 这 种 情况 时 ，IA 处 理 器 可 能 
使 用 内 部 的 Microcode 完成 图 13-4 所 示 的 算法 。 使 用 VT-d 除了 可 以 有 效 地 支持 虚拟 化 技术 之 
外 ， 还 可 以 支持 一 些 只 能 访问 32 位 地 址 空间 的 PCI 设备 访问 4GB 之 上 的 物理 地 址 空间 。 


13.1.3 AMD 处 理 器 的 IOMMU 


AMD 处 理 器 的 IOMMU 技术 与 mtel 的 VT-d 技术 类 似 ， 其 完成 的 主要 功能 也 类 似 。AMD 
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率先 提出 了 IOMMU 的 概念 ， 并 发 布 了 IOMMU 的 技术 手册 ,但 是 Intel 首先 将 这 一 技术 在 芯 
片 中 实现 。 由 于 AMD 和 mtal 使 用 的 x86 体系 结构 略 有 不 同 ， 因 此 AMD 的 IOMMU 技术 在 细 
节 上 与 Intel 的 VT-d 并 不 完全 一 致 。 

AMD 处 理 器 使 用 HT (Hyper Transport ) 总 线 连 接 IO Hub ， 其 中 每 一 个 I/O Hub 都 含 
有 一 个 IOMMU ， 其 结构 如 图 13-5 所 示 。 


CPU 


Memory Controller 


FDer or Pon Hope sansport 


IOMMU IOMMU 


PCIe Bus PCIe Bus PCIe Bus 


LO LO IOTLB 
Device Device 1/O Device 


图 13-5 AMD 处 理 器 的 IJOMMU 乡 


其 中 每 一 个 IOMMU 都 使 用 一 个 Device Table。AMD 处 理 需 使 用 Device Table 存放 
图 13-3 中 的 结构 ，Device Table 最 多 由 2 个 Entry 组 成 ， 其 中 每 个 Entry 的 大 小 为 256b， 因 
此 Device Table 最 大 将 占用 2 MB 内 存 空间 ， 与 Intel 使 用 的 Root/Context Entry 结构 相 比 ， 
AMD 使 用 的 这 种 方法 容易 造成 内 存 的 浪费 。 

在 IO Hub 中 的 设备 ?使 用 16 位 的 DeviceID 在 Device Table 查找 该 设备 所 对 应 的 Entry， 
并 使 用 这 个 Entry， 根 据 LO Page Table 结构 最 终 找 到 IO PTE 表 ， 并 完成 CPA 到 HPA 的 转 
换 。 在 AMD 处 理 带 中 ，GPA 到 HPA 的 转换 与 图 13-4 中 所 示 的 方法 有 类 似 之 处 ,但 实现 细 
节 不 同 。IOMMU 使 用 一 个 新 型 的 页 表 结 构 完 成 GCPA 到 HPA 的 转换 ， 这 个 页 表 结 构 基 于 
AMD64 使 用 的 虚拟 地 址 到 物理 地 址 的 页 表 结 构 ， 但 是 做 出 了 一 些 改动 。AMD64 进行 虚拟 地 
址 到 物理 地 址 的 转换 时 使 用 4 级 页 表 结 构 ， 如 图 13-6 所 示 。 

与 Intel 处 理 器 的 结构 类 似 ， 一 个 进程 首先 从 CR3 寄存 器 中 获得 页 表 的 基地 址 指针 寄存 
器 “Page Map Level-4 Base Address”， 之 后 通过 4 级 索引 最 终 获得 4KB 大 小 的 物理 页 面 ， 完 
成 虚拟 地 址 到 物理 地 址 的 转换 。AMD 处 理 需 也 支持 大 页 面 方式 ， 如 果 使 用 三 级 索引 ， 可 以 
获得 2MB 大 小 的 物理 页 面 ; 使 用 二 级 索引 ， 可 以 获得 1 GB 大 小 的 页 面 。 

IOMMU 使 用 的 VO 页 表 结 构 基 于 以 上 结构 ， 但 是 做 出 了 一 定 的 改动 。 在 IOMMU 中 , 4 
级 1/O 页 表 指 针 可 以 直接 指向 2 级 VO 页 表 指 针 ， 从 而 越过 第 3 级 0O 页 表 ， 使 用 这 种 方法 
可 以 节省 Page Table 的 空间 。 如 图 13-7 所 示 。 


其 中 PCI 设备 使 用 Bus Number、Device Number 和 Function Number 组 成 16 位 的 Device ID， 而 HT 设备 使 用 HT Bus 
Number 和 Unit ID 组 成 16 位 的 Device ID。 
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图 13-6 AMD64 虚拟 地 址 到 物理 地 址 的 页 表 结 构 
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图 13-7 IOMMU 使 用 的 GPA 到 HPA 的 转换 机 制 


Device Table Entry 


当 设 备 进行 DMA 操作 时 ， 首 先 需要 从 相应 的 Device Table 的 Entry 中 获得 “Level 4 Page 
Table Address” 指 针 ， 并 定位 设备 使 用 的 WO 页 表 ， 最 后 使 用 多 级 页 表 结 构 ， 最 终 完成 PCI 
总 线 地 址 到 HPA 地 址 的 转换 。Page Table 的 Entry 由 64 位 组 成 ， 其 主要 字段 如 下 所 示 。 

e 第 51 ~12 位 为 Next Table Address/Page Address 字段 ， 该 字段 存放 下 一 级 页 表 或 者 物 

理 页 面 的 地 址 ， 该 地 址 为 系统 物理 地 址 ， 属 于 HPA 空间 。 
e 第 11 ~9 位 为 Next Level 字段， 表示 下 一 级 页 表 的 级 数 ， 其 中 在 Device Table 中 存放 
的 级 数 一 般 为 4，Level-N 级 页 表 中 存放 的 Next Level 字段 为 N-1 ~1。 

如 图 13-7 所 示 ， 在 第 4 级 页 表 的 Entry 中 的 Next Level 字段 为 2， 表 示 第 4 级 页 表 直 接 
指向 第 2 级 页 表 ， 而 忽略 第 3 级 页 表 。 当 该 字段 为 0b000 或 者 0b1l11 时 ,表示 下 一 级 指针 指 
向 物理 页 面 而 不 是 页 表 。Next Level 字段 为 0b000 时 ， 表 示 所 指向 的 物理 页 面 的 大 小 是 固定 
的 ，AMD64 支持 4KB、2 MB、1 GB、512 GB 和 1TB (SP =4) 大 小 固定 页 面 ， 如 果 Next 

357 


Level 字段 为 0b111 时 ， 表 示 所 指向 的 物理 页 面 大 小 是 浮动 的 。 如 果 Level 2 Page Table 的 En- 
try 中 的 Next Level 字段 为 0b111 ， 表 示 该 Entry 指向 的 物理 页 面 大 小 浮动 ， 其 中 物理 页 面 大 
小 和 GPA 的 第 29 ~21 位 相关 ， 如 表 13-1 所 示 。 


表 13-1 Next Level 字段 为 0b111 时 的 页 表 大 小 


29 28 27 26 25 24 23 22 21 Page Size Default Page Size 
Page Address 0 4 MB 2 MB 
Page Address 0 1 8 MB 2 MB 
Page Address 0 1 1 16 MB 2 MB 
Page Address 0 1 1 1 32 MB 2 MB 
Page Address 0 1 1 1 1 64 MB 2 MB 
Page Address 0 1 1 1 1 1 128 MB 2 MB 
0 1 1 1 1 1 1 256 MB 2 MB 
0 1 1 1 1 1 1 1 512 MB 2 MB 


AMD64 处 理 需 使 用 这 种 I0 页 表 方 式 ， 可 以 方便 地 支持 4KB、8KB、……… 、4GB 大 小 的 
浮动 物理 页 面 。 除 了 IO 页 表 外 ，IOMMU 也 设置 了 IOTLB 以 加 快 GPA 到 HPA 地 址 的 转换 ， 
这 部 分 内 容 与 IA 处 理 器 的 实现 方式 类 似 ， 本 章 不 对 此 继续 进行 描述 。 对 IOMMU 感 兴趣 的 
读者 可 以 参考 AMD 1/O Virtualization Technology Specification。 


13.2 ATS (Address Translation Services) 


单纯 使 用 IOMMU 并 不 能 充分 发 挥 人 处理 器 系统 的 效率 ， 从 图 13-2 中 可 以 发 现 ， 所 有 PCI 
设备 在 进行 DMA 操作 时 ， 都 需要 经 过 TA 和 ATPT 进行 地 址 翻译 ， 然 后 才能 访问 主 存储 器 。 
因而 TA 和 ATPT 很 容易 成 为 瓶颈 ， 从 而 影响 虚拟 化 系统 的 整体 效率 。 

除 此 之 外 ， 在 图 13-2 中 ，EP1 和 EP2 分 别 隶 属于 Domainl 和 Domain2 。 在 正常 情况 下 ， 
一 个 Domain 并 不 能 访问 其 他 Domain 的 PCI 设备 。 但 是 如 果 处 理 器 系统 中 存在 一 个 恶意 的 虚 
拟 机 ， 而 且 EP1 隶属 于 该 虚拟 机 (Domainl ) 。 当 EP1 进行 DMA 写 操作 时 ,该 虚拟 机 填写 的 
DMA 写 地 址 可 以 与 EP2 的 BAR 地 址 空间 重合 ， 那 么 启动 DMA 写 操 作 时 ，Domainl 可 以 将 
数据 传递 到 EP2， 从 而 影响 Domain2 的 正常 运行 。 

解决 这 种 异常 的 最 合理 的 方法 是 ， 隶 属于 Domainl 的 PCI 设备 只 能 访问 GPA1 的 空间 ， 
而 仅 使 用 IOMMU 并 不 能 解决 该 问题 。 解 决 该 问题 较为 有 效 的 方法 是 PCI 设备 进行 数据 传送 
的 同时 也 进行 地 址 转换 ， 从 而 该 PCI 设备 使 用 的 地 址 是 经 过 转换 的 HPA 地 址 。 此 时 再 进行 
DMA 写 时 ， 该 数据 将 传递 到 与 Domainl 对 应 的 HPA 地 址 空间 中 ， 而 不 会 将 数据 传送 到 EP2。 
从 而 这 个 恶意 的 虚拟 机 并 不 会 影响 其 他 正常 工作 的 虚拟 机 。 

PCIe 总 线 使 用 ATS 机 制 实现 PCIe 设备 的 地 址 转换 。 支 持 ATS 机 制 的 PCIe 设备 ， 内 部 
含有 ATC (Address Translation Cache) ，ATC 在 PCIe 设备 中 的 位 置 如 图 13-8 所 示 。 

在 ATC 中 存放 ATPT 的 部 分 内 容 ， 当 PCIe 设备 使 用 地 址 路 由 方式 发 送 TLP 时 ， 其 地 址 
首先 通过 ATC 转换 为 HPA 地 址 。 如 果 PCle 设备 使 用 的 地 址 没有 在 ATC 中 命中 时 ，PCIe 设 
备 将 通过 存储 器 读 TLP 从 ATPT 中 获得 相应 的 地 址 转换 信息 ， 更 新 ATC 后 ， 再 发 送 TLP。 与 
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其 他 Cache 类 似 ，ATC 还 可 以 被 Invalidate。 当 ATPT 被 更 改 时 ， 处 理 器 系统 将 发 送 Invalidate 
报 文 ， 同 步 在 不 同 PCIe 设备 中 的 ATC。 


Root Complex(RC) 


RC Integrated 
Endpoint LEE 


PCIe 设 备 


PCIe 设 备 


PCIe 设 备 


图 13-8 ATC 在 PCIe 设备 中 的 位 置 


PCIe 总 线 在 TLP 中 设置 了 AT 字段 以 支持 ATS 机 制 。 在 PCIe 总 线 中 ， 只 有 与 存储 器 相 
关 的 TLP 支持 AT 字段 。 值 得 注意 的 是 ， 只 有 处 理 器 系统 支持 IOMMU 时 ，PCIe 设备 才 可 以 
使 用 ATS 机 制 。 


13.2.1 TLP 的 AT 字段 


TLP 的 AT 字段 与 ATS 机 制 直 接 相 关 。 根 据 AT 字段 的 不 同 ，PCIe 设备 可 以 发 送 三 种 类 
型 的 TLP。 

1.AT 字段 为 0b00 

当 AT 字段 为 0b00 时 ， 当 前 TLP 的 Address 字段 没有 通过 ATC 进行 转换 ， 存 放 的 是 PCI 
总 线 域 的 物理 地 址 。 如 果 PCIe 设备 不 支持 ATS 机 制 ， 而 且 处 理 器 系统 也 没有 使 能 IOMMU 
时 ， 当 前 TLP 的 Address 字段 为 PCI 总 线 域 的 物理 地 址 。PCle 设备 进行 DMA 操作 时 ， 该 地 
址 将 被 RC 转换 为 存储 器 域 的 物理 地 址 ， 然 后 对 存储 器 进行 读 写 操作 。 

如 果 PCIe 设备 不 支持 ATS 机 制 ， 但 是 当前 处 理 器 支持 IOMMU 时 ， 当 前 TLP 的 Address 
字段 依然 为 PCI 总 线 域 的 物理 地 址 。PCIe 设备 进行 DMA 操作 时 ， 该 地 址 将 被 TA 根据 LO 
页 表 的 设置 ， 转 换 为 合适 的 存储 右 域 物理 地 址 。 

如 果 当 前 处 理 器 系统 支持 虚拟 化 技术 ， 当 前 PCIe 设备 将 隶属 于 某 一 个 Domain， 此 时 该 
PCIe 设备 进行 DMA 操作 时 ， 数 据 将 被 传送 到 属于 该 Domain 的 存储 器 域 中 。 

2，AT 字段 为 0b01 

当 AT 字段 为 0b01 时 ， 表 示 当 前 TLP 报 文 为 “Translation Request” 报 文 。 支 持 ATS 机 
制 的 PCIe 设备 ， 必 须 支持 这 类 报 文 。 

该 报 文 由 PCIe 设备 通过 存储 器 读 请 求 TLP 发 出 ， 其 目的 地 为 TA。TA 收 到 该 报 文 后 ， 
将 根据 IYO 页 表 的 设置 ， 将 合适 的 地 址 转换 关系 ， 通 过 存储 器 读 完成 TLP， 发 送 给 PCIe 设 
备 。 而 PCle 设备 收 到 这 个 地 址 转换 关系 后 ， 将 更 新 ATC 。 


TT 
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3. AT 字段 为 0x10 

当 AT 字段 为 0x01 时 ， 表 示 当 前 TLP 的 Address 字段 已 经 通过 ATC 进行 地 址 转换 。 当 
PCle 设备 使 用 存储 器 读 写 报 文 进行 DMA 操作 ， 而 RC 收 到 这 些 报 文 时 ， 将 不 再 通过 TA 和 
ATPT 进行 地 址 转换 ， 而 直接 将 数据 发 送 给 存储 器 。 从 而 减轻 了 ATPT 进行 地 址 转换 的 压力 。 

值得 注意 的 是 ， 经 过 ATC 进行 地 址 转换 后 ， 在 TLP 的 Address 字段 中 存放 的 依然 是 PCI 
总 线 域 的 物理 地 址 ， 该 物理 地 址 为 HPA 地 址 在 PCI 总 线 域 中 的 映像 。 

如 果 TLP 中 的 Address 字段 没有 经 过 ATC 进行 地 址 转换 ， 而 且 处 理 器 系统 支持 虚拟 化 技 
术 ， 该 地 址 为 仍然 对 应 GPA 地 址 在 PCI 总 线 域 中 的 映像 ， 此 时 该 TLP 使 用 的 AT 字段 为 
0b00。 这 些 地 址 在 经 过 RC 后 ， 将 被 转换 为 存储 需 域 的 地 址 ， 然 后 进入 TA 和 ATPT 再 次 进 
行 地 址 转换 。 由 以 上 描述 可 以 发 现 ，PCle 设备 无 论 是 否 使 用 ATC 机 制 ， 在 TLP 中 存放 的 
Address 字段 仍然 保存 的 是 PCI 总 线 地 址 。 


13.2.2 地 址 转换 请 求 


PCIe 设备 可 以 使 用 地 址 转换 请 求 (Translation Requests) TLP 向 TA 提交 地 址 转换 请 求 。 
该 TLP 具有 64 位 和 32 位 两 种 地 址 格式 。 本 节 仅 介绍 64 位 地 址 格式 ， 如 图 13-9 所 示 。 其 中 
AT 字段 为 0b01 表示 当前 报 文 为 地 址 转换 请 求 TLP。 

该 报 文 的 格式 与 存储 器 读 请 求 TLP 的 报 文 格式 基本 类 似 ， 但 是 在 地 址 转换 请 求 TLP 中 ， 
一 些 字段 的 含义 与 存储 器 读 请 求 TLP 并 不 相同 。 该 报 文 的 作用 是 将 Untranslated Address 字段 
发 送 到 TA， 而 TA 根 据 ATPT 将 Untranslated Address 数据 区 域 进行 翻译 ， 然 后 通过 存储 器 读 
完成 TLP 将 地 址 转换 关系 发 送 给 PCle 设备 。PCle 设备 收 到 这 个 存储 器 读 完成 TLP 后 将 这 个 
地 址 转换 关系 保存 在 PCle 设备 的 ATC 中 。 

Untranslated Address 数据 区 域 的 长 度 由 Length 字段 确定 。 在 地 址 转换 请 求 TLP 中 ， 
Length 字段 的 最 低位 和 高 5 位 为 0， 而 且 Length 字段 不 能 为 0b00-0000-0000 ， 因 此 该 地 址 转 
换 请 求 TLP 所 访问 的 数据 区 域 最 小 为 8B ， 而 最 大 不 能 超过 RCB 。 而 且 该 数据 区 域 为 1DW 对 
界 ，First DW BE 与 Last DW BE 字段 都 为 0bl111。 


Len: 
Byte 0 00 000x xxx0 


Last DW BE | First DW BE 


Byte 4 Requester ID 


Byte 8 Untranslated Address[63:32] 


Byte 12 Untranslated Address[31:2] 


图 13-9 ”64 位 地 址 转换 请 求 TLP 的 格式 


当 PCIe 设备 与 某 个 虚拟 机 绑 定 时 ，Untranslated Address 数据 区 域 的 GPA 地 址 连续 ,但 
是 其 对 应 的 HPA 地 址 并 不 一 定 连 续 (在 绝 大 多 数 虚 拟 机 的 实现 中 ， 为 简化 设计 ，GPA 所 对 
应 的 HPA 地 址 区 域 地 址 连续 ) 。 因 此 PCIe 设备 发 送 一 个 地 址 转换 请 求 后 ， 可 能 会 从 TA 得 到 
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多 个 地 址 转换 关系 ， 这 些 地 址 转换 关系 可 以 使 用 一 个 存储 器 读 完 成 TLP 发 送 给 PCIe 设备 。 
在 PCIe 总 线 中 ， 一 个 地 址 转换 关系 由 8B 组 成 ， 这 也 是 地 址 转换 请 求 TLP 的 Length 字段 至 
少 为 0b10 的 原因 。 

当 TA 收 到 地 址 转换 请 求 TLP 后 ， 将 查找 ATPT， 然 后 通过 存储 器 读 完成 TLP， 将 转换 
关系 发 送 给 PCIe 设备 。 如 果 地 址 转换 成 功 时 ，TA 使 用 CplD ( 带 数 据 的 存储 器 读 完 成 报 文 ) 
将 转换 关系 发 送 给 PCIe 设备 ; 否则 使 用 Cpl 将 失败 信息 发 送 给 PCIe 设备 。 本 节 仅 讨论 CplD 


报 文 ， 其 格式 如 图 13-10 所 示 。 
+0 +1 +2 +3 

7|16|5 4~0 7| 6~4 3 2 1 0|17|6| 5~4|3~2|1~0 7~0 
Byted: | Eont Type R| Tc |RIslRlrarDlEr Atr | Ar Length 
Ye 010 0 1010 已 engt 
Byte 4 Completer ID Status 加 Byte Count 
y p 000 | 缀 
Byte 8 Requester ID 


Byte 12 Translated Address[63:32] 


Byte 16 Translated Address[31:12] Reserved 


Translated Address[63:32] 


Translated Address[31:12] Reserved 


图 13-10 地址 转换 完成 TLP 的 格式 


地 址 转换 完成 TLP 的 报 文 头 与 存储 需 读 完成 报 文 头 完全 相同 ， 而 Payload 字段 由 一 个 或 
者 多 个 地 址 转换 关系 组 成 。 一 个 地 址 转换 关系 由 以 下 字段 与 位 组 成 。 

e Translated Address [63 :12 ] 字段 保存 与 Untranslated Address 对 应 的 HPA 地 址 ， 即 经 

过 转换 的 地 址 。 

e 而 U 位 为 1 时 ， 表 示 这 段 HPA 空间 只 能 使 用 Untranslated 地 址 访问 ， 即 PCle 设备 不 
能 使 用 AT 字段 等 于 0b10 的 存储 器 读 写 TLP; R 位 为 1， 表示 HPA 地 址 空间 可 读 ; W 
位 为 1 时 ， 表 示 HPA 地 址 空间 可 写 。 

e N 位 为 1 时 ，PCIe 设备 访问 这 段 数据 区 域 时 ， 其 存储 需 读 写 TLP 的 No Snoop 位 必须 
为 0， 表 示 硬 件 需要 进行 Cache 一 致 性 操作 ;如果 该 位 为 0，PCle 设备 将 使 用 其 他 方 
法 确定 No Snoop 位 是 否 可 以 为 1。 

e S 位 需要 与 Translated Address 字段 联合 使 用 ， 表 示 该 段 数据 区 域 的 大 小 ， 如 表 13-2 
所 示 。 

由 该 表 所 示 ，Translated Address 数据 区 域 的 最 小 值 为 4KB， 此 时 S 位 必须 为 0。 如 果 5S 
不 为 0， 则 表示 这 上 段 数 据 区 域 大 于 4KB。 当 Address31 为 0， 而 Address [30: 12] 和 S 位 都 
为 1 时 表示 ， 这 段 区 域 为 4GB ， 但 是 4GB 并 不 是 Translated Address 数据 区 域 的 最 大 值 。PCIe 
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设置 还 可 以 使 用 Address [63 :32] 字段 ， 继 续 扩展 数据 区 域 的 大 小 。 
表 13-2 Translated Address 区 域 的 大 小 


Tranlated Address 


(92 


a 3|2|2|2|2|2| 2|12|121212|1111113 页 面 大 小 /B 
1|o0lj9jsgl7l6l5l4131211lol9lsgl716l5141312 
x XIxlxlxlxlxlxlxlxlxlxlxlxlxlxlxlxlxlxlxlo 4K 
X XIXxlxlxlxlxlxlxlxlxlxlxlxlxlxlxlxlxlxlola 8K 
X XIXxlxlxlxlxlxlxlxlxlxlxlxlxlxlxlxlxlollla 16K 
x XIxlxlxlxlxlxlxlxlxlxloliaaalalala 2M 


X XIX|I011I11 LLDPE DEEP | 1 053 1 C 


X XI011111111E Lp | 1 53 2G 


X 0 1111 LE 4G 


当 PCle 设备 支持 ATS 机 制 并 进行 DMA 操作 时 ， 首 先 查 找 当 前 访问 的 地 址 是 否 在 ATC 

my 中， 如 果 命 中 则 直接 从 ATC 中 获得 Translated Address， 并 使 用 AT 等 于 0b10 的 存储 器 
读 写 TLP 与 主 存储 器 交换 数据 。TA 收 到 AT 等 于 0b10 的 TLP 后 ， 将 不 使 用 ATPT 进行 地 址 

转换 而 将 报 文 直接 发 送 到 存储 需 控 制 器 ， 与 主 存储 器 进行 数据 交换 。 

如 果 PCIe 设备 访问 的 地 址 区 域 没有 在 ATC 中 命中 时 ，PCIe 设备 有 两 种 处 理 方法 ， 
使 用 AT 等 于 0b00 的 TLP， 即 使 用 Untranslated Address 直接 访问 存储 器 ， 这 个 ii 
Address 到 达 TA 后 ，TA 根据 ATPT 的 设置 ， 将 Untranslated Address 进行 地 址 转换 ， 然 后 再 
将 报 文 发 送 到 存储 器 控制 器 中 。 

如 果 处 理 器 系统 中 存在 恶意 的 虚拟 机 时 ，PCIe 设备 使 用 这 种 方法 时 将 会 带 来 安全 隐患 。 
2 意 的 虚拟 机 可 以 直接 将 这 个 Untranslated Address 与 其 他 PCIe 设备 使 用 的 BAR 空间 重 

， 从 而 该 虚拟 机 可 以 破坏 隶属 于 其 他 虚拟 机 的 PCIe 设备 ,干扰 其 他 虚拟 机 的 正常 运行 ， 
这 是 庶 拟 机 系统 禁 次 止 的 行为 。 

因而 当 PCle 设备 访问 的 地 址 区 间 没 有 在 ATC 中 命中 时 ， 应 该 首先 进行 地 址 转换 。 采 用 
这 种 方式 时 ，PCle 设备 将 首先 向 TA 发 送 地 址 转换 请 求 TLP， 并 从 ATPT 中 获得 地 址 转换 关 
系 后 ， 使 用 TA 等 于 0b10 的 存储 需 读 写 TLP， 即 使 用 Translated Address 与 主 存储 需 进 行 数据 
交换 ， 从 而 有 效 避 免 了 上 文 所 述 的 安全 隐患 。 

目前 尚 无 支持 ATS 机 制 的 PCIe 设备 ,但 是 通过 本 市 的 描述 可 以 发 现 , 使 用 ATS 机 制 可 
以 有 效 减 轻 TA 进行 地 址 转换 的 负担 ， 同 时 避免 虚拟 机 中 存在 的 安全 隐患 。 


13.2.3 Invalidate ATC 


处 理 器 系统 更 改 ATPT 时 ， 需 要 使 用 MsgD 报 文通 知 相应 PCIe 设备 ， 并 Invalidate ATC 
中 相应 的 Entry， 该 MsgD 报 文 也 被 称 为 “Invalidate Request Message”， 其 格式 如 图 13-11 所 
示 。 其 中 PCIe 设备 每 收 到 一 个 MsgD 只 能 Invalidate ATC 中 的 一 个 Entry。 
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+0 十 1 十 2 +3 
7|6|5 4~0 7| 6~4 3 2 1 0|7|6| 5~4|3~2|1~0 7~0 
Fmt Type pe Length 
去 TDIEP| A 
Byte 0 RIs| 有 tr | 及 00 0000 0010 


Byte 4 


Byte 8 


Byte 12 


Byte 16 


Byte 20 


色 13-11 


Status 
Requester ID IIag 


Message Code 
0000 0001 


Untranslated Address[63:32] 
ee Re 上 思 


Invalidate Request Message 的 格式 


Invalidate Request Message 各 个 字段 的 描述 如 下 所 示 。 


e Fmt 字段 为 0b011 ， 


表示 报 文 涉 为 4DW， 而 且 含 有 Payload 字段 。Length 字段 为 0b10， 


表示 该 报 文 Payload 的 大 小 为 8B。 而 TC、Attr、TD 和 EP 的 含义 与 通用 TLP 头 相同 ， 


详 见 第 6. 1 节 。 


e Type 字段 为 0b10010， 表 示 该 消息 报 文 使 用 ID 路 由 方式 。 其 中 Requester ID 字段 保存 


TA 的 ID 号 Device ID 保存 目标 设备 使 用 的 ID 
ID 路 由 。 
。 ITag 字段 与 Tag 字段 的 功能 类 似 ， 取 值 范围 


Message 报 文 使 用 该 字段 进行 


号 ， 即 存放 ATC 的 PCIe 设备 ID， 


为 0~31。 当 TA 需要 连续 发 送 多 个 “了 In- 


validate Request Message” 报 文 时 ,使 用 该 字段 区 别 不 同 的 MsgD。 


该 MsgD 报 文 的 Payload 字段 中 存放 “Unstranlated Address”， 
当 PCIe 设备 收 到 Invalidate Request Message 报 文 后 ， 根 据 Unstran- 


的 大 小 ， 如 表 13-2 所 示 。 


而 S 位 用 来 表示 数据 区 域 


lated Address 字段 Invalidate ATC 中 对 应 的 Entry。PCle 设备 Invalidate ATC 中 对 应 的 Entry 之 
后 ， 将 向 TA 发 送 Invalidate Completion Message 报 文 ， 表示 已 经 Invalidate ATC 中 的 对 应 En- 


try， 该 报 文 的 格式 如 图 13-12 所 示 。 


+0 十 ] +2 +3 
7|615 4~0 7| 6~4 3 2 1 0|7|6| 5~4|3~2|1~0 7~0 
Fmt Type pg Length 
T TDIEP| A 
Byte 0 0 C Io % 区 | 有 00 0000 0000 


Byte 4 


Byte 8 Device ID 


Message Code 
Requester ID Reserved 0000 0010 


Reserved 


Byte 12 


图 13-12 


ITag Vector 


Invalidate Completion Message 的 格式 
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Invalidate Completion Message 报 文 的 各 个 字段 的 描述 如 下 所 示 。 

e Fmt 、Type 等 字段 与 Invalidate Request Message 的 对 应 字段 类 似 。 

e Requester ID 字段 保存 TA 的 ID 号， 而 Device ID 字段 保存 PCIe 设备 的 ID 号 。 

e CC 字段 表示 PCle 设备 需要 向 TA 发 送 Invalidate Completion Message 报 文 的 个 数 。 当 
CC 字段 为 0 时 表示 需要 8 个 这 样 的 报 文 ,为 n 时 表示 需要 n 个 这 样 的 报 文 。n 的 最 大 
值 为 0x07。 

e ITag Vector 字段 由 32 位 组 成 ， 其 中 每 一 位 对 应 Invalidate Request Message 报 文 的 一 个 
ITag 字段 ，Invalidate Completion Message 通过 ITag Vector 字段 可 以 向 多 个 Invalidate 
Request Message 报 文 发 出 回应 ， 表 示 已 经 mvalidate ATC 中 的 多 个 Entry。 


13.3 SR-IOV 与 MR-IOV 


PCIe 总 线 除 了 提供 了 ATS 机 制 外 ， 还 使 用 SR-IOV 和 MR-IOV 机 制 ， 进 一 步 优化 虚拟 化 
技术 的 实现 。 其 中 SR-IOV 技术 的 主要 作用 是 将 一 个 物理 PCIe 设备 模拟 成 多 个 虚拟 设备 ， 其 
中 每 一 个 虚拟 设备 可 以 与 一 个 虚拟 机 绑 定 ， 从 而 便于 不 同 的 虚拟 机 访问 同一 个 物理 PCIe 设 
备 。 在 PCIe 体系 结构 中 ， 即 便 使 用 了 ATS 和 SR-IOV 技术 ， 在 处 理 器 系统 中 仍然 只 有 一 个 
PCIe 总 线 域 ， 所 有 的 虚拟 机 共享 这 个 PCI 总 线 域 ， 这 为 虚拟 化 技术 的 实现 带 来 了 不 小 的 障 
碍 。 使 用 SR-IOV 技术 ， 可 以 解决 单个 PCIe 设备 被 多 个 虚拟 机 共享 的 问题 ， 但 是 并 没有 对 管 
理 PCIe 设备 的 Switch 进行 约束 。 

提出 MR-IOV 技术 的 主要 目的 是 解决 多 个 处 理 器 系统 对 一 个 PCI 总 线 域 共享 的 问题 ， 其 
本 质 是 将 一 个 物理 PCI 总 线 域 ， 分 解 为 多 个 虚拟 的 PCI 总 线 域 ， 多 个 处 理 器 系统 可 以 与 多 个 
PCI 总 线 域 对 应 ， 从 而 实现 了 不 同 PCI 总 线 域 间 的 隔离 。MR-IOV 技术 对 PCIe 总 线 进行 了 大 
规模 的 扩展 ,提出 了 MRA (Multi-Root Aware) Switch 、MRA (Multi_Root Aware) Device 和 
MRA RP (Rort Port) 的 概念 ， 同 时 对 PCIe 总 线 的 数据 链 路 层 和 流量 控制 进行 了 细微 改动 。 


13.3.1 SR-IOV 技术 


在 SR-IOV 技术 没有 引入 之 前 ,一 个 PCIe 设备 在 一 个 指定 的 时 间 段 内 ， 只 能 与 一 个 虚拟 
机 (Domain 1) 绑 定 ， 而 其 他 虚拟 机 (Domain 2) 访问 与 Domain 1 绑 定 的 PCIe 设备 时 ， 需 
要 首先 向 Domain 1 发 送 请 求 ， 由 Domain 1 从 PCIe 设备 获得 数据 后 ， 再 传送 给 Domain 2。 使 
用 这 种 方法 将 极 大 增加 在 虚拟 化 环境 下 ， 虚 拟 机 访问 PCIe 设备 的 延 时 ， 同 时 也 干扰 了 其 他 
虚拟 机 的 正常 运行 。 

而 在 处 理 器 系统 中 并 行 设 置 多 个 同样 的 物理 设备 ， 不 仅 增加 了 系统 成 本 ， 而 且 增 加 了 处 
理 器 系统 的 规模 ， 从 而 造成 不 必要 的 浪费 。SR-IOV 技术 在 此 背景 下 诞生 。 支 持 SR-IOV 的 
PCle 设备 ， 由 多 组 虚拟 子 设备 组 成 ， 其 拓扑 结构 如 图 13-13 所 示 。 

由 上 图 所 示 ， 基 于 SR-IOV 的 PCIe 设备 由 多 个 物理 子 设备 PF (Physical Function) 和 多 
组 虚拟 子 设备 VF (Virtual Function) 组 成 。 其 中 每 一 组 VF 与 一 个 PF 对 应 。 在 上 图 中 存在 
M 个 PF， 分 别 为 PF0 ~ M。 其 中 “VF0, 1 ~ N1” 与 PF0 对 应 ; 而 “VFM, 1 ~ N2” 与 PFM 
对 应 。 
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图 13-13 ”基于 SR-IOV 的 PCIe 设备 


其 中 每 个 PF 都 有 唯一 的 配置 空间 ， 而 与 PF 对 应 的 VF 共享 该 配置 空间 ， 每 一 个 VF 都 
有 独立 的 BAR 空间 ， 分 别 为 VF BAR0 ~5。 从 录 辑 关系 上 看 ， 这 种 做 法 相当 于 在 一 个 PF 
中 ， 存 在 多 个 虚拟 设备 。 

在 虚拟 化 环境 中 ， 每 个 虚拟 机 可 以 与 一 个 VF 绑 定 。 假 设 在 一 个 处 理 需 系统 中 ， 网 卡 使 
用 了 SR-IOV 技术 ， 该 网 卡 由 一 个 PF 和 多 个 VF 组 成 。 其 中 每 个 虚拟 机 可 以 使 用 一 个 VF， 
从 而 实现 多 个 虚拟 机 使 用 一 个 物理 网 卡 的 目的 。 

PCIe 总 线 设置 了 Single Root IO Virtualization Extended Capabilities 结构 以 支持 SR-IOV 机 
制 。 对 此 感 兴趣 的 读者 可 参阅 Single Root IO Virtulization and Sharing Specification。 这 些 细节 
对 于 非 虚 拟 化 技术 的 开发 者 并 不 重要 。 从 本 质 上 说 ，SR-IOV 技术 与 多 线程 处 理 需 技术 类 似 ， 
只 是 多 线程 处 理 器 技术 应 用 于 处 理 器 领域 ， 而 SR-IOV 将 同样 的 概念 应 用 于 PCle 设备 。 


13.3.2 MR-IOV 技术 


MR-IOV 技术 的 主要 功能 是 将 处 理 器 系统 的 PCI 总 线 域 划分 为 多 个 虚拟 PCI 总 线 域 ， 从 
而 多 个 处 理 器 系统 可 以 共享 同一 个 物理 PCI 总 线 域 。MR-IOV 技术 引入 了 几 个 新 的 概念 ， 
MRA RP、MRA Devices 和 MRA Switeh。 其 中 MRA Switch 的 结构 如 图 13-14 所 示 。 
MRA Switch 与 传统 的 Switch 相 比 ， 其 结构 有 较 大 不 同 。 
e MRA Switch 由 0 个 或 者 多 个 上 游 端口 组 成 ， 如 图 13-14 所 示 MRA Switch 可 以 与 多 个 
RP 连接 ， 这 个 RP 可 以 是 MRA RP 也 可 以 是 传统 的 RP。 在 某 些 应 用 中 ，MRA Switch 
可 以 作为 中 间 节 点 与 其 他 MRA RP 相连 ， 此 时 该 MRA Switch 不 需要 上 游 端 口 。 
e MRA Switch 由 0 个 或 者 多 个 下 游 端 口 组 成 ，MRA Switch 可 以 与 多 个 MRA 设备 连接 ， 
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也 可 以 连接 SR-IOV 设备 和 传统 的 PCIe 设备 。MRA Switch 可 以 作为 中 间 节 点 与 其 他 
MRA Switch 相连 ， 此 时 该 MRA Switch 可 以 不 需要 下 游 端 口 。 


图 13-14 MRA Switch 的 结构 


e 使 用 MRA Switch 可 以 组 成 多 个 虚拟 PCI 总 线 域 VHs (Virtual Hierarchies)。 如 图 13- 
14 所 示 ，MRA Switch 由 3 套 P2P 桥 组 成 ， 每 一 套 P2P 可 以 组 成 1 个 PCI 总 线 域 ,这 3 
个 PCI 总 线 域 的 地 址 空间 独立 。 

e MRA Switch 可 支持 若干 个 双向 端口 ， 与 其 他 MRA Switch 和 MRA RP 相连 。 处 理 器 系 
统 之 间 可 以 使 用 这 些 双 向 端口 组 成 复杂 的 服务 器 系统 。 

MRA Switch 的 设计 与 实现 较为 复杂 ， 而 且 该 类 芯片 的 应 用 范围 较为 有 限 ， 目 前 仅 可 能 
应 用 在 支持 虚拟 化 技术 的 高 端 服务 器 上 。 更 为 重要 的 是 ，Intel 并 没有 制作 Switch 芯片 的 传 
统 ， 因 此 在 短 时间 之 内 MRA Switch 仅 可 能 出 现在 MR-IOV 规范 中 ， 而 很 难 有 实际 的 芯片 。 
Intel 目前 还 没有 文 持 MRA RP 的 Chipset， 但 是 可 以 预计 MRA RP 一定 出 现在 MRA Switch 之 
前 ， 因 而 目前 应 该 关注 MRA RP 与 MRA Devices 的 连接 拓扑 结构 。 

MRA Devices 与 SR-IOV 设备 相 比 略 有 不 同 ，MRA Devices 略微 更 改 了 数据 链 路 层 。 此 外 
MRA Devices 还 重新 定义 了 SR-IOV 设备 的 PF 和 VE， 使 得 这 些 PF 或 者 VF 可 以 分 属于 不 同 
的 PCI 总 线 域 。 

MRA Devices 可 以 与 MRA RP 或 者 MRA Switch 联合 使 用 ， 从 而 组 成 独立 的 PCI 总 线 域 。 
这 些 独立 的 PCI 总 线 域 可 以 与 多 个 独立 的 虚拟 机 组 成 多 个 虚拟 处 理 器 系统 。 在 这 种 结构 下 ， 
不 同 的 存储 器 域 可 以 使 用 独立 的 PCI 总 线 域 ， 以 最 大 限度 地 实现 虚拟 机 对 外 部 设备 的 隔离 访 
间 。MRA Device 的 组 成 结构 如 图 13-15 所 示 。 

在 MRA Device 中 含有 1 个 新 的 子 设备 BF (Base Function ) ， 该 设备 存放 管理 MRA De- 
vices 的 MR-IOV 的 Capability 结构 ， 该 结构 用 来 管理 在 MRA Device 的 PCI 总 线 域 。 除 此 之 
外 ， 在 该 结构 中 还 可 以 存放 与 设备 相关 的 寄存 器 ， 如 网 卡 使 用 的 MAC 地 址 。BF 使 用 “BF 
0: f” 进 行 描述 ， 其 中 “0” 表示 BF 使 用 的 VH 号 ， 而 “f” 表 示 BF 使 用 的 Function 号 ,其 
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值 在 0 ~255 之 间 。 值 得 注意 的 是 BF 使 用 的 VH 号 只 能 为 0。 
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MRA Data Encapsulation 
PF h:f 


VF 0:£.1 VF 0:f2 | ... | VFO:f's VFh:f.1 VEFhf2 | ... | VEFhfs 


图 13-15 MRA Device 的 结构 


在 MRA Device 中 ， 如 果 含有 多 个 PF 设备 ， 这 种 MRA Device 也 被 称 为 SR-IOVZMRA 
Devices。 这 些 PF 设备 使 用 “PF h: f” 进 行 编码 ， 其 中 “h” 表 示 PF 使 用 的 VH 号 ， 而 
“f” 表示 PF 使 用 的 Function 号 ， 其 值 在 0 ~255 之 间 。 

而 与 SR-IOV 类 似 ， 在 MRA Device 中 还 存在 多 组 VF， 其 中 每 一 组 VF 与 一 个 PF 对 应 ， 
并 使 用 “VF h: f, s” 描 述 ， 其 中 “h” 表 示 VF 使 用 的 VH 号 ， 而 “f” 表示 PF 使 用 的 
Function 号 ,“s” 表 示 VF 号 。 

由 以 上 描述 可 见 ， 在 MRA Device 中 ，PF 和 VF 可 以 分 别 属于 不 同 的 虚拟 PCI 总 线 域 VH， 并 
与 MRA RP 或 者 MRA Switch 连接 ， 形 成 一 个 完整 的 PCI 总 线 域 。 为 简便 起 见 ， 本 节 仅 介绍 MRA 
RP 与 SR-IOV 设备 、SR-IOV/MRA Devices 和 MRA Devices 的 连接 关系 ， 如 图 13-16 所 示 。 


MR-IOV Device 


Multi-Port MRA RC 


SR-IOV Device X SR-IOV/MRA Device 了 MRA DeviceZ 


PFO PF 0:1 
PF F F F 
1:0 2:0 1:0 0:0 
VF VF VF VF 
0,1 0,2 0:1,1| | 0:1,2 


图 13-16 MRA RP 与 MRA Device 的 连接 


该 图 所 示 的 MRA RC 支持 三 个 虚拟 PCI 总 线 域 ,， 分别 为 VHA、VHB 和 VHC， 并 包含 三 
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个 MRA RP， 其 中 RP1 与 SR-IOV Device X、RP2 与 SR-IOV/MRA Device Y、RP3 与 MRA De- 
vice Z 连接 。 

Device X 仅 含 有 一 个 PCI 总 线 域 ， 因 此 只 能 指派 给 一 个 虚拟 PCI 总 线 域 ， 假 设 该 设备 使 
用 VHA; Device Y 中 含有 2 个 PCI 总 线 域 ， 假 设 该 设备 的 VHIl 与 VHB 对 应 ， 而 VH0O 与 
VHA 对 应 ; Device Z 中 含有 3 个 PCI 总 线 域 ， 假 设 该 设备 的 VH2 与 VHC 对 应 ，VHIl 与 VHB 
对 应 ， 而 VHO 与 VHA 对 应 。 

由 此 可 知 ， 在 当前 处 理 器 系统 中 ， 虚 拟 PCI 总 线 域 VHA 中 包含 Device X 中 的 全 部 子 设 
备 、Device Y 中 的 “PF0:1”、“VF 0:1, 1” 和 “VF 0:1, 2” 和 Device Z 中 的 “F0:0”; 虚拟 PCI 
总 线 域 VHB 中 包含 Device Y 的 “PF1:0” 和 Device Z 中 的 “Fl1:0”; 而 虚拟 PCI 总 线 域 VHC 中 
包含 Device Z 中 的 “F2.0”。 

假设 在 处 理 器 系统 中 含有 3 个 虚拟 机 ， 这 3 个 虚拟 机 可 以 分 别 使 用 VHA、B 和 C 这 3 个 
不 同 的 虚拟 PCI 总 线 域 ， 从 而 实现 对 PCI 设备 的 隔离 访问 。MR-IOV 技术 的 实现 细节 较为 复 
杂 ， 本 节 对 此 不 做 深入 介绍 。 
通过 以 上 描述 ， 可 以 发 现 使 用 MR-IOV 技术 ,通过 为 虚拟 机 提供 独立 的 PCI 总 线 域 ， 较 
好 地 解决 了 虚拟 机 对 外 部 设备 的 隔离 访问 。 而 且 处 理 器 系统 还 可 以 使 用 MRA Switch 组 成 更 
为 复杂 的 网 络 拓扑 结构 ， 从 而 便于 实现 基于 多 个 SMP 系统 的 虚拟 机 。 但 是 目前 尚 无 支持 
MR-IOV 技术 的 RP 和 Switch 。 


13.4 小结 


本 章 简单 介绍 了 PCIe 总 线 与 虚拟 化 技术 相关 的 内 容 。 读 者 需要 获得 与 处 理 咒 相关 的 虚 
拟 化 知识 后 ， 才 能 进一步 理解 这 些 内 容 。 疝 于 篇 幅 ， 本 章 没 有 进一步 介绍 虚拟 化 技术 的 实现 
细节 。 

第 工 篇 的 内 容 到 此 告 一 段落 ， 在 本 篇 中 较为 详细 地 介绍 了 PCIe 总 线 的 层次 结构 ， 流 量 
控制 机 制 ， 电源 管理 、 序 和 死 锁 以 及 虚拟 化 技术 等 一 系列 内 容 。 本 篇 的 内 容 并 不 局 限于 
PCle 总 线 本 映 , 希望 读者 可 以 从 本 篇 中 了 解 通用 总 线 的 设计 与 实现 过 程 ， 以 及 值得 注意 的 
实现 细节 。 
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第 川 第 “Linux 与 PCI 总 线 


本 篇 主要 讲述 Linux 系统 与 PCI/PCIe 总 线 相关 的 一 些 内 容 ， 其 重点 在 于 Linux 系统 PCL/ 
PCIe 总 线 驱动 程序 的 实现 。 并 以 此 为 基础 说 明 PCI 总 线 控制 器 及 其 相关 设备 在 系统 软件 的 
初始 化 过 程 。 本 篇 并 不 会 拘泥 于 Linux 系统 的 实现 细节 ， 但 是 仍 将 介绍 一 些 与 Linux 系统 相 
关 的 基本 知识 。 本 篇 内 容 基 于 Linux 2. 6. 31.6 内 核 。 

值得 注意 的 是 ， 在 不 同 处 理 器 体系 结构 中 ，Linux 系统 初始 化 PCI 总 线 的 过 程 并 不 相同 。 
如 在 Linux x86 系统 中 ，BIOS 为 PCI 总 线 的 初始 化 做 出 了 许多 辅助 工作 ， 而 在 Linux PowerPC 
或 者 Linux ARM 中 使 用 的 Firmware ， 如 U-Boot， 并 没有 做 类 似 的 工作 。 

从 系统 软件 的 角度 来 看 ，PCI 总 线 与 PCIe 总 线 的 初始 化 过 程 和 资源 分 配 较 为 类 似 ， 为 
节约 篇 幅 ， 本 篇 将 PCI 和 PCIe 总 线 统称 为 PCI 总 线 ， 并 将 Linux 系统 的 PCI 和 PCIe 子 系统 
简称 为 Linux PCI。 

在 第 12. 3 节 中 讲述 了 一 个 最 基本 的 、 基 于 PCI 总 线 的 Linux 设备 驱动 程序 。 这 个 PCI 设 
备 驱动 程序 使 用 了 一 些 Linux 系统 提供 的 标准 API 和 数据 结构 ， 例 如 使 用 pci_resource_start 
和 pci_resource_len 函数 获得 该 设备 BAR 空间 的 基地 址 和 长 度 ， 并 在 request_irq 函数 中 使 用 
pci_dev 一 ird 参数 注册 该 设备 使 用 的 中 断 服务 例 程 。 

该 PCI 设备 (Capric 卡 ) 在 驱动 程序 中 使 用 的 这 些 存储 器 资源 ， 由 系统 软件 对 PCI 总 线 
进行 初始 化 时 确定 ， 而 中 断 资 源 在 使 能 相应 的 PCI 设备 时 由 系统 软件 分 配 。 这 个 系统 软件 包 
括 操 作 系 统 和 FirmwareS 。 

与 其 他 处 理 器 系统 相 比 ，x86 处 理 器 作为 一 个 通用 处 理 器 平台 ， 始 终 强调 向 前 兼容 的 重 
要 性 。 而 实现 向 前 兼容 需要 做 出 许多 牺牲 ， 这 也 造成 了 Linux x86 对 PCI 总 线 的 初始 化 过 程 
最 为 复杂 也 最 为 繁琐 ，x86 处 理 吉 在 引入 了 ACPI (Advanced Configuration and Power Interface 
Specification) 机 制 之 后 ,方便 了 处 理 器 系统 对 “不 规范 外 部 设备 ”的 管理 ， 但 是 使 得 PCI 
总 线 的 初始 化 过 程 更 为 复杂 。 

下 文 将 以 Linux x86 为 主线 说 明 PCI 总 线 的 初始 化 过 程 。Linux x86 在 对 PCI 总 线 进 行 初 
始 化 之 前 ，BIOS 对 PCI 总 线 做 出 了 部 分 初始 化 工作 ， 如 创建 ACPI 表 、 预 先 分配 PCI 设备 使 
用 的 存储 器 资源 ， 并 执行 PCI 设备 ROM 中 的 初始 化 代码 等 一 系列 步 又。 

Linux x86 将 继承 BIOS 对 PCI 总 线 的 初始 化 成 果 ， 并 在 此 基础 上 进行 Linux PCI 子 系统 


名 x86 处 理 器 使 用 的 BIOS 也 是 Firmware 的 一 种 。 
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的 初始 化 ， 并 执行 PCI 设备 的 Linux 驱动 程序 的 初始 化 模块 。 在 Linux x86 中 ，PCI 总 线 的 初 
始 化 由 一 系列 模块 协调 完成 。 

Linux x86 首先 使 用 “make menuconfig” 命 令 对 内 核 进行 必要 的 配置 ， 然 后 产生 . config 
文件 。 假定 在 . config 文件 中 ，CONFIG_PCI、CONFIG_PCI_MSIT、CONFIG_PCI_GOANY、 
CONFIG_PCI_BIOS、CONFIG_PCI_DIRECT、CONFIG_PCI_MMCONFIG 等 一 些 必要 的 参数 为 
“y”， 即 使 能 PCI 总 线 驱 动 、 使 能 MSI 中 断 请 求 机 制 等 ， 而 且 对 x86 处 理 顺 非常 重要 的 CON- 
FIG_ACPI 参数 也 为 “y”。 

在 Linux PCI 中 ， 有 两 个 常用 的 数据 结构 ， 分 别 为 pci_dev 和 pci_bus 结构 。 这 两 个 数据 
结构 的 定义 在 . /include/linux/pci. bh 文件 中 。 其 中 pei_dev 结构 描述 PCI 设备 ， 包 括 这 个 PCI 
设备 的 配置 寄存 器 信息 ， 使 用 的 中 断 资源 ， 还 有 一 些 和 SR-IOV 相关 的 参数 。 而 pci_bus 结 
构 描 述 PCI 桥 ， 包 括 这 个 PCI 桥 的 配置 寄存 器 信息 和 一 些 状 态 信息 。 该 结构 中 self 参数 值得 
注意 ，pci_bus 一 se 了 f 指向 一 个 pci_dev 结构 ， 该 结构 用 于 PCI 桥 的 上 游 总 线 访 问 PCI 桥 ， 此 
时 PCI 桥 被 当 作 一 个 设备 。 
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第 14 章 ”Linux PCI 的 初始 化 过 程 


Linux PCI 初始 化 的 主要 工作 是 遍历 当前 处 理 器 系统 中 的 所 有 PCI 总 线 树 , 并 初始 化 PCI 
总 线 树 上 的 全 部 设备 , 包括 PCI 桥 与 PCI Agent 设备 。 在 Linux 系统 中 , 多 次 使 用 了 DFS 算法 
对 PCI 总 线 树 进行 遍历 查找 , 并 分 配 相 关 的 PCI 总 线 号 与 PCI 总 线 地 址 资源 。 

单纯 从 一 种 处 理 器 系统 的 角度 来 看 ，Linux PCI 的 实现 机 制 远 非 完美 。 其 中 有 许多 宛 余 
的 代码 和 多 余 的 步骤 ,比如 Linux PCI 中 对 PCI 总 线 树 的 遍历 次 数 过 多 ,从 而 影响 Linux PCI 
的 初始 化 代码 的 执行 效率 。 产 生 这 些 不 完美 的 主要 原因 是 , Linux PCI 首先 以 x86 人 处理 器 为 蓝 
本 编写 , 而 后 作为 通用 代码 逐渐 支持 其 他 处 理 器 , 如 ARM、PowerPC 和 MIPS 等 。 不 同 的 处 理 
器 对 PCI 总 线 树 的 遍历 机 制 并 不 完全 相同 , 而 Linux PCI 作为 通用 代码 必须 兼顾 这 些 不 同 , 从 
而 在 某 种 程度 上 造成 了 这 段 代码 的 混乱 。 这 种 混乱 是 通用 代码 的 无 奈 之 举 。 

本 章 以 x86 处 理 器 系统 为 例 , 介绍 Linux PCI 的 执行 流程 。 目 前 ACPI 机 制 在 x86 处 理 器 系 
统 已 经 得 到 大 规模 的 普及 , 而 且 在 x86 处 理 器 中 , 只 能 使 用 ACPI 机 制 支持 处 理 器 最 新 的 特性 。 
因此 掌握 ACPI 机 制 , 对 于 深入 理解 x86 处理 器 的 软件 架构 , 已 经 不 可 或 缺 。 为 此 本 章 将 重点 介 
绍 Linux PCI 在 ACPI 机 制 下 的 初始 化 过 程 , 而 不 再 介绍 Linux PCI 的 传统 初始 化 方式 。 


14. 1 Linux x86 对 PCI 总 线 的 初始 化 


一 个 处 理 絮 系统 首先 从 Firmware 开始 执行 , 并 由 Firmware 开始 引导 Linux 内 核 。Linux 
系统 首先 从 . /init/main. c 文件 的 start_kernel 函数 开始 执行 。 不 同 的 处 理 器 系统 使 用 的 Firm- 
ware 并 不 相同 , 如 x86 处 理 器 系统 使 用 BIOS, 而 PowerPC 处 理 器 系统 使 用 U-Boot。 有 些 处 理 
器 系统 ,最初 的 初始 化 操作 可 能 由 EPROM 完成 , 之 后 执行 Firmware 中 的 程序 。 值 得 注意 的 
是 , 在 x86 处 理 器 中 常用 的 Grub 并 不 是 Firmware, 而 是 Linux 系统 的 引导 程序 。 

start_kernel 函数 在 调用 rest_init 函数 之 前 ， 其 主要 工作 与 操作 系统 核心 层 相关 ， 包括 进 
程 调度 、 内 存 管理 和 中 断 系 统 等 主要 模块 的 初始 化 。 而 rest_init 函数 将 创建 kernel_init 进程 ， 
并 由 该 进程 调用 do_basic_setup 一 do_initcalls 函数 2 完成 所 有 外 部 设备 的 初始 化 , 包括 PCI 总 
线 的 初始 化 , 该 函数 如 源 代 码 14-1 所 示 。 

源 代 码 14-1 do_initcalls 函数 


static void _init do_initcalls( void ) 
| 


initcall t * call; 


for (call = _early_initcall end; call < _initcall_end; call ++ ) 


do_one_initcall( * call) ; 


”Linux PowerPC 在 setup_arch 函数 中 也 做 了 一 些 有 关 PCI 总 线 的 初始 化 工作 ,如 初始 化 HOST 主 桥 。 


365 


/* Make sure there is no pending stuff from the initcall sequence */ 


flush_scheduled_work( ) ; 


do_initcalls 函数 的 主体 是 将 _early_initcall_end 和 _initcall_end 指针 之 间 的 函数 全 部 执行 
一 遍 , 这 两 个 指针 在 vmlinux. lds 文件 中 定义 。 在 生成 操作 系统 内 核 时 , 一 些 需 要 在 Linux 系 
统 初始 化 时 执行 的 函数 指针 被 加 入 到 _early_initcall_end 和 _initcall_end 参数 之 间 , 之 后 由 do 
_initcalls 函数 统一 调用 这 些 函 数 。Linux 系统 定义 了 一 系列 需要 在 系统 初始 化 时 执行 的 模块 ， 
如 源 代 码 14-2 所 示 。 这 段 代 码 在 . /include/linux/init. h 文件 中 。 

源 代码 14-2 ”Linux 系统 的 初始 化 模块 


有 


* module_init( ) — driver initialization entry point 


* @x. function to be run at kernel boot time or module insertion 

* 

* module_init( ) will either be called during do_initcalls( ) (if 

* builtin) or at module insertion time (if a module). There can only 
* be one per module. 

*/ 


#define module_init(x) _initcall(x) ; 


#define _ define_initcall( level,fn,id) \ 
static initcall t _initcall_ ##fn##id _used \ 


_attribute_((_section_(". initcall” level “. init’) ) ) =fn 


* Early initcalls run before initializing SMP. 


* Only for built -im code, not modules. 
*/ 


#define early_initcall( fn) _define_initcall( ”early”, fn, early ) 


2 
* A "pure” initcall has no dependencies on anything else, and purely 
* initializes variables that couldn't be statically initialized. 
* 


* This only exists for built - in code, not for modules. 


*/ 
#define pure_initcall( fn) _define_initcall( "0”,fn,0) 
#define core_initcall( fn) _define_initcall( ”1”,fn,1) 
#define core_initcall_sync( fn) _define_initcall( ”1s” ,fn,1s) 
#define postcore_initcall( fn) _define_initcall( "2"”,fn,2) 
#define postcore_initcall_sync( fn) _define_initcall( ”2s” ,fn ,2s ) 
#define arch_initcall( fn) _define_initcall( ”3”,fn,3) 
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#define arch_initcall_sync( fn) _define_initcall( "3s"”,fn,3s) 


#define subsys_initcall( fn) _define_initcall( "4”,fn,4) 

#define subsys_initcall_sync (fn) _define_initcall( "4s” ,fn,4s) 
#define fs_initcall( fn) _define_initcall( "S$", fn,5) 

#define fs_initcall_sync( fn) _define_initcall( "S$s” ,fn ,Ss ) 
#define rootfs_initcall( fn) _define_initcall( "rootfs” ,fn ,rootfs ) 
#define device_initcall( fn) _define_initcall( "6”, fn ,6) 

#define device_initcall_sync( fn) _define_initcall( "6s” ,fn ,6s) 
#define late_initcall( fn) _define_initcall( ”7”, fn,7) 

#define late_initcall_sync (fn) _define_initcall( ”7s”,fn,7s) 


#define _initcall( fn) device_initcall( fn) 


#define _exitcall(fn) \ 


static exitcall_t _exitcall_##fn _exit_call =fn 


以 上 初始 化 模块 按照 _define_initcall 定义 的 顺序 执行 , 首先 执行 early_initcall 初始 化 模 
块 之 后 是 pure_initcall 模块 、core_initcall 模块 等 ,最 后 执行 late_initcall _sync。 如 果 Linux 设 
备 驱 动 程序 采用 built-in2 的 方式 而 不 是 作为 Module 形式 加 载 时 , 将 使 用 device_initcall 函数 
或 者 device_initcall_syne 图 数 进行 加 载 。 

在 Linux 系统 初始 化 时 运行 的 模块 需要 使 用 以 上 的 xxx_initcall 宏 , 定义 该 模块 的 函数 指 
针 , 之 后 该 模块 的 函数 指针 将 加 入 到 Linux 内 核 的 _early_initcall end 和 _initcall _end 之 间 。 
我 们 以 xyz_init 模块 的 加 载 为 例 说 明 这 些 xxx_initcall 图 数 的 使 用 ，xyz_init 因数 用 来 加 载 某 个 
模块 。 该 函数 的 初始 化 过 程 如 源 代 码 14-3 所 示 。 


源 代 码 14-3 xxx_initcall 函数 


static int _init xyz_init( void ) 
| 

| 

xxx_initcall (xyz_init ) ; 

这 段 代 码 首 先 使 用 宏 xxx_initcall 定义 了 一 个 _initcall_xyz_initx 了 匈 数 , 该 函数 存放 XYyzZ 师 
数 的 指针 。 在 生成 Linux 系统 内 核 时 , 链接 带 将 这 个 函数 指针 存放 在 _early_initcall_end 和 _ 
initcall_end 参数 之 间 。 

Linux 系统 在 初始 化 时 将 在 do_initcalls 淘 数 中 执 行 _initcall_xyz_initx 函数 ， 从 而 执行 
xyz_init 函数 。Linux 系统 使 用 这 种 方法 规范 初始 化 模块 的 执行 , 并 保证 这 些 模块 可 以 按照 指 
定 的 顺序 依次 执行 。 

在 Linux 内 核 的 System. map” 文件 中 , 可 以 找到 在 _early_initcall_end 和 _initcall_end 之 间 


© 将 设备 驱动 程序 编译 到 Linux 内 核 中 。 
”System. map 文件 存放 Linux 内 核 使 用 的 符号 表 , 包括 当前 Linux 系统 使 用 的 所 有 函数 指针 和 全 局 变量 。 
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所 有 的 函数 指针 , 其 中 与 PCI 总 线 初始 化 相关 的 函数 如 源 代 码 14-4 所 示 , 这 些 函 数 将 按照 
在 以 下 源 代码 中 出 现 的 顺序 依次 执行 。 


源 代码 14-4 System. map 文件 中 与 PCI 总 线 初始 化 相关 的 函数 


c0836ba4 t _initcall_pcibus_class_init2 
c0836ba8 t _initcall_pci_driver_init2 
c0836bd4 t _initcall_acpi_pci_init3 

c0836bec t _initcall_pci_arch_init3 
c0836clct _initcall_pci_slot_init4 

cO0836c34 t _initcall_acpi_pci_root_init4 
c0836c38 t _initcall_acpi_pci_link_init4 
c0836c70 t _initcall_pci_subsys_init4 
c0836ca4 t _initcall_pci_iommu_init$ 
c0836cf0 t _initcall_pcibios_assign_resources5 
c0836ebc t _initcall_pci_init6 

c0836ec0 t _initcall_pci_proc_init6 

c0836ec4 t _initcall_pcie_portdrv_init6 
c0836ecc t _initcall_pci_hotplug_init6 
c083706c t _initcall_pci_sysfs_init7 

cO0837084 t _initcall_pci_mmcfg_late_insert_resources7 


每 一 次 编译 Linux 内 核 时 , 都 可 能 会 产生 一 个 新 的 System. map, 但 是 源 代 码 14-4 中 冰 数 
上 § 针 的 顺序 不 会 发 生变 化 , 其 执行 顺序 也 不 会 发 生变 化 。 下 面 将 依次 分 析 这 些 函 数 的 功能 。 
并 在 后 续 章 节 , 逐步 解析 这 些 函 数 的 实现 方法 。 


14.1.1 pcibus_class_init 与 pci_driver_init 国 数 


pcibus_class_init 函数 在 . /driver/pci/probe. c 文件 中 , 如 源 代码 14-5 所 示 。 该 函数 的 主 
要 作用 是 注册 一 个 名 为 “pci_bus ”的 class 结构 。 在 Linux 系统 中 , 为 了 便于 测试 将 所 有 的 设 
备 使 用 一 个 文件 系统 进行 管理 , 这 个 文件 系统 也 被 称 为 sysfs 文件 系统 。 

最 初 Linux 系统 将 与 设备 相关 的 信息 都 存放 在 proc 文件 系统 中 ; 而 随 着 Linux 系统 的 不 
断 演变 ，proe 文件 系统 变 得 异常 混乱 而 复杂 ,难以 维护 ,于 是 sysfs 文件 系统 应 运 而 生 。 与 
proc 文件 系统 相 比 ，sysfs 文件 系统 的 组 织 结构 较为 清晰 。 

目前 与 设备 相关 的 模块 基本 上 都 由 sysfs 文件 系统 维护 ,而 proc 文件 系统 留 给 真正 的 系 
统 进程 使 用 。 本 书 不 会 详细 介绍 sysfs 文件 系统 的 详细 实现 机 制 ， 因 为 sysfs 文件 系统 与 PCI 
体系 结构 并 没有 太 大 的 关系 ,只 是 Linux 系统 使 用 的 一 种 对 设备 模块 进行 管理 的 方法 。 


源 代 码 14-5 ”pcibus_class_init 函数 


static struct class pcibus_class = | 
. name ="pci_bus”, 
. dev_release = &release_pcibus_dev, 


局 
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static int _init pcibus_class_init( void ) 


| 


return class_register( &pcibus_class); 


| 


postcore_initcall( pcibus_class_init ) ; 


pcibus_class_init 胃 数 执行 完毕 后 , 将 会 在 /sys/class 目录 下 产生 一 个 “pci_bus” 的 目录 ， 
有 兴趣 的 读者 可 以 使 用 “ls -1 /sys/class” 命 令 找 到 这 个 目录 。 该 函数 执行 完毕 后 , 将 很 快 
执行 pci_driver_init 图 数 ， 如 源 代码 14-6 所 示 。 


源 代 码 14-6 ”pci_driver_init 函数 


struct bus_type pci_bus_type = | 


. name = on 

. match = pci_bus_match, 

. uevent = peci_uevent, 

. probe = pci_device_probe, 

. remove = pci_device_remove, 

. shutdown = pci_device_shutdown, 
. dev_attrs = pci_dev_attrs, 

. bus_attrs = pci_bus_attrs, 

. pm =PCI_PM_OPS_PTR, 


过 


static int _init pci_driver_init( void ) 
| 
return bus_register( &pci_bus_type) ; 


| 


postcore_initcall( pei_driver_init ) ; 


函数 也 与 sysfs 文件 系统 相关 ,该 函数 执行 完毕 后 , 将 在 /sys/bus 目录 下 建立 一 
人 录 , 之 后 当 Linux 系统 的 PCI 设备 使 用 ee 函数 注册 一 个 新 的 pci 设备 时 ， 

将 在 /sys/bus/pci/drivers 目录 下 创建 这 个 设备 使 用 的 目录 。 

如 在 第 12 章 源 代码 12-1 中 ,pci_register_driver 函数 将 最 终 调 用 device_register 图 数 ， 并 
在 /sys/bus/pci/drivers 下 建立 “capric” 目 录 。 在 这 个 capric 目录 里 包含 capric 卡 在 Linux 系 
统 中 使 用 的 一 系列 资源 。 

在 源 代 码 14-4 中 也 有 一 些 和 ACPI 机 制 初 始 化 相关 的 函数 , 包括 acpi_pci_init、acpi_pci_ 
root_init 和 acpi_pci_link 国 数 。 有 关 ACPI 机 制 的 介绍 见 第 14.2 节 。 


14.1.2 pcei_arch_init 本数 


pci_arch_init 函数 是 Linux x86 系统 执行 的 第 一 个 与 PCI 总 线 初 始 化 相关 的 函数 。 该 函数 
的 定义 在 . [archyx86Zpcivinit e 文件 中 ,如 源 代 码 14-7 所 示 。 
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源 代 码 14-7 ”pci_arch_init 函数 


/* arch_initcall has too random ordering, so call the initializers 
in the right sequence 位 om here. */ 

static _init int pei_arch_init( void) 

| 

#ifdef CONFIG_PCI_DIRECT 
int type =0; 


type = pci_direct_probe( ) ; 
#endif 


if (! (pei_probe & PCL PROBE_NOEARLY) ) 


pci_mmcfg_early_init( ) ; 


#ifdef CONFIC_PCL_OLPC 
让 (! pei_olpc_init( ) ) 
return 0; A/ * skip additional checks ifit's an XO */ 
#endif 
#ifdef CONFIG_PCI_BIOS 
pci_pcbios_init( ) ; 
#endif 
* don't check for raw_pci_ops here because we want pcbios as last 
* fallback, yet it's needed to run first to set pcibios_last_bus 
* in case legacy PCI probing is used. otherwise detecting peer busses 
* fails. 
*/ 
#ifdef CONFIG_PCI_DIRECT 
pei_direct_init( type); 
#endif 
i (| raw_pci ops && | raw_pci_ext_ops) 
printk( KERN_ERR 


"PCI: Fatal: No config space access function found\n”); 
dmi_check_pciprobe( ) ; 
dmi_check_skip_isa_align( ) ; 


return 0 ; 


| 


arch_initcall( pci_arch_init) ; 


该 函数 使 用 了 一 些 编译 选项 , 如 果 使 能 CONFIG_PCI_BIOS 选项 表示 Linux x86 系统 将 使 
用 BIOS 对 PCI 总 线 的 枚 举 结 果 ; 如 果 使 能 CONFIG_PCI_DIRECT 选项 表示 由 Linux x86 系统 
重新 枚 举 PCI 总 线 ; 如 果 使 能 CONFIG_PCI_OLPC 选项 表示 当前 处 理 器 系统 属于 OLPC( One 
Laptop per Child) 。 本 节 仅 讲述 使 能 CONFIG_PCI_DIRECT 选项 的 情况 。pci_arch_init 函数 首 
先 调用 pci_direct_probe 国 数 ，pci_qdirect_probe 函数 如 源 代 码 14-8 所 示 。 
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源 代 码 14-8 pci_direct_probe 函数 


int _init pei_direct_probe( void ) 
| 


struct resource * region, * region2; 


if ( (pei_probe & PCI_PROBE_CONF]1) ==0) 
goto type2 ; 
region = request_region( OxCF8, 8, "PCI confl”) ; 
if (| region) 
goto type2; 


if (pei_check_typel( )) | 
raw_pci_ops = &pci_direct_conf] ; 
port_c{f9_safe = true; 
return 1; 

| 


release_resource(region ) ; 


type2 : 
if ((pci_probe & PCI_PROBE_CONF2) ==0) 
return 0; 
region = request_region( OxCF8, 4, "PCI conf2”)，; 
if (| region) 
return 0 ; 
region2 = request_region( OxC000, Ox1000, "PCI conf2”); 
if (| region2) 
goto fail2; 


if (pci_check_type2( ) ) | 
raw_pci_ops = &pci_direct_conf?2; 
port_c{f9_safe = true; 


return 2; 


| 


release_resource( region2 ) ; 
fail2 
release_resource(region ) ; 


return 0 ; 


pci_direct_probe 困 数 首先 根据 全 局 变量 pci_probe 判断 raw_pci_ops 函数 使 用 的 孔 数 指 
针 。 全 局 变量 pci_probe 的 缺 省 值 在 . /arch/x86/pci/common. e 中 定义 , 如 下 所 示 。 


unsigned int pci_probe =PCL_PROBE_BIOS | PCL_PROBE_CONF1 | PCI_PROBE_CONF2 | 
PCL_PROBE_MMCONF ; 


如 果 Boot loader 程序 (如 Grub ) 在 引导 Linux 内 核 时 没有 加 入 “pci = xxxx” 人 参数 , 全 局 变 
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量 pci_probe 将 使 用 缺 省 值 。 此 时 pei_direct_probe 水 数 仅 使 用 “confl 类 型 ”而 不 使 用 “conf2 
类 型 ”对 raw_pci_ops 函数 赋值 。 

x86 处 理 器 提供 了 三 种 方式 访问 PCI 设备 的 配置 空间 。 一 种 方法 是 使 用 “0xCF8 和 
0xCFC” 这 两 个 170 端口 , 这 两 个 端口 的 详细 描述 见 第 2. 2.4 节 ，Linux x86 系统 使 用 pci_ 
confl_read 和 pci_confl_write 函数 操作 这 两 个 VO 端口 , 这 两 个 因数 的 定义 见 . /arch/x86/ 
pciAdirect. c 文件 。 

另 一 种 方法 是 使 用 “conf2” 方 法, 目前 这 种 方法 不 再 被 Linux x86 继续 使 用 ， 
有 兴趣 的 读者 可 以 参考 pci_conf2_read 和 pci_conf2_write 函数 ,本 节 对 这 种 方法 不 做 介 

inux x86 使 用 pci_mmcfg_read 和 pci_mmcfg_write 函数 实现 ECAM 方式 ， 这 两 个 交代 
义 见 . /arch/x86/pciAmmconfig_32.c 文件 中 。 

其 中 使 用 pci_confl _read 和 pci_confl_write 困 数 只 能 访问 PCI 设备 配置 空间 的 前 256 个 
字 节 , 而 使 用 pci_mmcfg_read 和 pci_mmcefg_write 因数 可 以 访问 PCI 设备 的 全 部 配置 空间 。 在 
Linux 系统 中 , 可 以 使 用 这 两 种 方式 访问 不 同 的 配置 空间 。 

pci_direct_probe 函数 执行 完毕 ，pci_arch_init 函数 将 继续 调用 pci_direct_init 函数 ,然后 依 
次 调用 dmi_check_pciprobe( ) 和 dmi_check_skip_isa_align( ) 图 数 , 这 两 个 dmi_xxx 图 数 与 x86 
处 理 吉 的 DMI( Desktop Management Interface ) 接口 和 SM( System Management) 总 线 相关 ,本 市 
对 此 不 做 进一步 说 明 。 


14.1.3 pci_slot_init 和 pci_subsys_init 了 国 数 


Linux x86 系统 执行 完毕 4 pci_arch_init 函数 后 ， 将 调用 pci_slot_init 函数 ， 该 函数 的 主要 作 
用 是 在 sysfs 文件 系统 中 , 建立 slots 目录 及 其 kobject 结构 。pci_subsys_init 函数 是 一 个 重要 的 
函数 ,其 定义 在 . /arch/x86/pci/legacy. e 文件 中 , 如 源 代码 14-9 所 示 。 


源 代 码 14-9 ”pci_subsys _init 函数 


int _init pei_subsys_init( void ) 

| 

#ifdef CONFIG_X86_NUMAQ 
pei_numaq_init( ) ; 

#endif 

#ifdef CONFIG_ACPI 
pci_acpi_init( ) ; 

#endif 

#ifdef CONFIG_X86_VISWS 
pei_visws_init( ) ; 

#endif 
pci_legacy_init( ) ; 
pcibios_fixup_peer_bridges( ) ; 
pcibios_irq_init( ) ; 
pcibios_init( ) ; 


return 0 ; 


| 


subsys_initcall( peci_subsys_init) ; 
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本 书 并 不 关心 CONFIG_X86_NUMAQ 和 CONFIG_X86_VISWS 选项 。 在 第 14. 3. 3 节 将 详 
细 介 绍 CONFIG_ACPI 选项 使 能 时 使 用 的 pei_acpi_init 函数 。 
pci_legacy_init 函数 完成 对 PCI 总 线 的 枚 举 , 并 在 proc 文件 系统 和 sysfs 文件 系统 中 建立 
相应 的 结构 。 如 果 当 前 处 理 器 系统 没有 使 能 ACPI 机 制 , 则 该 函数 是 Linux x86 对 PCI 总 线 进 
行 初始 化 的 一 个 重要 函数 ,其 实现 机 制 如 源 代码 14-10 所 示 。 


源 代 码 14-10 ”pci_legacy _init 函数 


static int _init pci_legacy_init( void ) 
| 
if (! raw_pci_ops) | 
printk ("PCI: System does not support PCI\n’”); 


return 0 ; 


| 


if (pcibios_scanned ++ ) 


return 0 ; 


printk ("PCI: Probing PCI hardware \n”); 
pei_root_bus = pcibios_scan_root(0); 
if (pei_root_bus) 


pci_bus_add_devices( pci_root_bus ) ; 


return 0 ; 


| 


pci_legacy_init B 函数 首先 调用 pcibios_scan_root 函数 完成 对 PCI 总 线 树 的 枚 举 该 函数 的 
输入 参数 为 0 表示 这 次 枚 举 将 从 总 线 号 0 开始 进行 。 在 完成 PCI 总 线 的 枚 举 后 , 该 函数 将 调 
用 pci_bus_add_devices 函数 将 PCI 总 线 上 的 设备 加 入 到 sysfs 文件 系统 中 。 

Linux x86 引入 ACPI 机 制 之 后 ， pcibios_scanned 参数 将 被 置 为 1， 从 而 pci_legacy_init 函 
数 将 直接 使 用 0 作为 返回 值 , 并 不 会 执行 pcibios_scan_root 和 pci_bus_add_devices 函数 。 

当 pci_legacy_init 函数 执行 完毕 后 ， pcibios_irq_init 函数 将 使 用 BIOS 提供 的 中 断路 由 表 ， 
初始 化 当前 处 理 需 系统 的 中 断路 由 表 ,， 同 时 确定 PCI 设备 使 用 的 中 断 向 量 , 本 章 并 不 会 对 该 
函数 进行 详细 分 析 , 因为 Linux x86 目前 大 多 使 用 ACPI 提供 的 中 断路 由 表 , 而 不 再 使 用 BIOS 
中 的 中 断路 由 表 。 如 果 ACPI 机 制 被 使 能 , 该 函数 也 将 直接 使 用 0 作为 返回 值 , 并 不 会 被 完 
全 执行 。 

pcibios_init 函数 的 主要 工作 是 调用 pcibios_resource_survey 了 艺 数 ， 2 PCI 设备 使 用 的 存 
储 右 及 1/O 资源 。pcibios_resource_survey 图 数 将 在 第 14. 3. 3 节 中 详细 介 


14.1.4 与 PCI 总 线 初始 化 相关 的 其 他 函数 


pci_iommu_init 函数 在 . /arch/x86/kernel/pci-dma.c 文件 中 , 该 函数 用 来 初始 化 处 理 右 系 
统 的 IOMMU , 可 以 配置 IBM X-Series 刀片 服务 器 使 用 的 Calgary IOMMU、Intel 的 Vtd 和 AMD 
的 IOMMU 使 用 的 VO 页 表 。 如 果 在 Linux 系统 中 没有 使 能 IOMMU 选项 ，pci_iommu_init 函 
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数 将 调用 no_iommu_init 函数 , 并 将 dma_ops 函数 设置 为 nommu_dma_ops。 本 节 不 进一步 介 
绍 该 函数 的 详细 实现 机 制 。 

pcibios_assign_resources 函数 主要 处 理 PCI 设备 使 用 的 ROM 空间 和 PCI 设备 使 用 的 存储 
器 和 LO 资源 。 该 函数 的 主要 功能 是 调用 pci_assign_unassigned_resources 也 数 对 PCI 设备 使 
用 的 存储 器 和 1/0 资源 进行 设置 。 对 于 Linux x86 而 言 ，BIOS 已 经 将 PCI 设备 使 用 的 存储 器 
和 1/O 资源 设置 完毕 , 而 其 他 Linux 系统 , 如 Linux PowerPC, 需要 使 用 该 哨 数 设置 PCI 设备 
使 用 的 存储 器 和 1O 资源 。 

pci_init 卫 数 的 主要 作用 是 对 已 经 完成 枚 举 的 PCI 设备 进行 修复 工作 , 用 于 修补 一 些 BI- 
OS 中 对 PCI 设备 有 影响 的 Bugs。 

pci_proc_init 函数 的 主要 功能 是 在 proc 文件 系统 中 建立 . /bus/pci 目录 , 并 将 proc_fs 默 
认 提 供 的 包 e_operations 更 换 为 proe_bus_pci_dev_operations。 
pcie_portdrv_init 函数 首先 在 . /sys/bus 中 建立 pci_express 日 录 , 然后 使 用 pci_register_ 
driver 范 数 向 内 核 和 注册 一 个 名 为 pcie_portdriver 的 pci_driver 结构 。 在 Linux x86 中 ，pci_ex- 
press 目录 中 的 设备 都 是 从 sysfs 文件 系统 的 pci 目录 中 链接 过 来 的 。 该 函数 的 实现 较为 简单 。 

pci_hotplug_init 了 水 数 主要 用 来 支持 CompactPCI 的 热 搬 拔 功能 。CompactPCI 总 线 在 通信 
系统 中 较为 常见 。 

而 pei_sysfs_init 函数 与 sysfs 文件 系统 相关 ,主要 功能 是 将 每 一 个 PCI 设备 加 入 到 sysfs 
文件 系统 的 相应 目录 中 , 本 节 对 此 不 做 进一步 介绍 。pci_mmcfg_late_insert_resources 玉 数 的 
主要 功能 是 将 MMCFG 使 用 的 资源 放 和 人 系统 的 Resource Tree 中 , 并 标记 这 些 资源 已 经 被 使 
用 , 之 后 其 他 驱动 程序 不 能 再 使 用 这 个 资源 。 

本 章 并 不 会 对 Linux x86 使 用 的 Legacy PCI 总 线 枚 举 方法 进一步 描述 ,x86 处 理 右 为 了 实 
现 向 前 兼容 , 付出 了 巨大 的 努力 。x86 处 理 带 在 实现 新 的 功能 的 同时 , 需要 向 前 兼容 古董 级 
别 的 功能 ， 有 时 BIOS 无 所 适 从 。Linux x86 对 PCI 总 线 进行 初始 化 时 , 使 用 了 许多 不 完美 的 
源 代码 。 而 这 些 貌 似 不 完美 的 源 代码 背后 , 都 有 许多 与 向 前 兼容 有 关 的 故事 。 


14. 2 ” x86 处 理 器 的 ACPI 


在 x86 处 理 器 中 ，ACPI(Advanced Configuration and Power Interface ) 是 一 个 非常 重要 而 且 
较为 复杂 的 概念 。 最 初 ACPI 规范 由 Intel 、Microsoft 和 Toshiba 公司 共同 制定 , 后 来 HP 和 
Phoenix 公司 也 参与 了 ACPI 规范 的 制定 , 该 规范 主要 包括 x86 处 理 咒 系统 的 资源 配置 和 电源 
管理 两 方面 内 容 。 

ACPI 规范 整合 了 之 前 的 OSPM ( Operating System directed Power Management) 、MultiPro- 
cessor 规范 和 Plug and Play BIOS 规范 , 并 定义 了 一 系列 数据 结构 与 电源 管理 状态 , 提供 了 电 
源 管理 接口 、 硬 件 及 其 Firmware 接口 , 以 描述 处 理 器 系统 的 设备 和 电源 管理 策略 。ACPI 规 
范 在 1996 年 12 月 发 布 1.0 版 本 , 目前 的 稳定 版 是 4.0 版 。 

ACPI 规范 是 x86 处 理 器 使 用 的 Firmware 接口 标准 , 操作 系统 需要 获得 的 处 理 器 底层 信 
息 基 本 上 都 可 以 从 ACPI 表 中 获得 。 在 ACPI 诞生 之 前 , 基于 x86 处 理 器 的 操作 系统 需要 使 用 
BIOS 才能 获得 相应 的 信息 。 而 不 同 厂商 提供 的 BIOS 之 间 并 没有 一 个 统一 标准 ,从 而 在 某 种 
程度 上 造成 硬件 资源 管理 与 使 用 上 的 混乱 。 
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产生 这 种 混乱 的 主要 原因 是 由 于 x86 处 理 器 系统 为 了 实现 向 前 兼容 ， 有 许多 不 得 已 ; 而 
部 分 原因 是 在 x86 处 理 器 系统 中 , 有 许多 外 部 设备 本 身 就 挂 接 在 一 些 “ 不 可 配置 的 ”总 线 上 ， 
如 ISA/EISA 总 线 , 还 有 一 些 外 部 设备 本 身 就 是 不 标准 的 ， 如 电源 按钮 和 在 笔记 本 上 使 用 的 
一 些 “ 特 殊 功 能 键 ”。 

在 ACPI 规范 没有 出 现 之 前 ,BIOS 厂商 通常 按照 某 种 “ 自 定 义 ” 的 方式 使 用 这 些 外 部 设 
备 , 因此 需要 为 操作 系统 提供 各 类 驱动 程序 , 并 由 操作 系统 集成 这 些 并 不 属于 任何 标准 的 驱 
动 程序 ， 从 而 给 操作 系统 的 开发 与 维护 带 来 了 极 大 的 困难 。 

ACPI 机 制 在 这 种 背景 下 应 运 而 生 。ACPI 机 制 提供 了 一 组 与 处 理 器 硬件 和 操作 系统 的 相 
关 接 口 , 对 处 理 器 平台 以 及 设备 的 电源 进行 管理 , 并 可 以 配置 和 管理 外 部 设备 使 用 的 系统 资 
源 。ACPI 机 制 主要 管理 以 下 系统 资源 。 

e Legacy PNP 设备 2, 如 ISA 设备 、 串 并 口 等 设备 。 

e 笔记 本 使 用 的 一 些 外 部 设备 , 如 电源 开关 、 风 扇 、 电 源 和 一 些 快捷 键 。 

。 系统 电源 管理 , 包括 人 处理 器 和 外 部 设备 的 电源 管理 。 这 部 分 内 容 也 是 ACPI 规范 的 设 

计 重 点 s 

e 系统 的 热 插 拔 管理 。 热 插 拔 是 ACPI 规范 的 设计 重点 ，ACPI 系统 热 插 拔 可 以 覆盖 小 到 
“从 笔记 本 搬 拔 CDROM”, 大 到 “NUMA(Non-uniform Memory Access) 结构 处 理 需 系统 
热 捅 拔 PE( Processor Element) 、 存储 屁 节 点 (Memory Node) 和 IO 节点 ”这 些 应 用 。 不 
过 许多 NUMA 处 理 器 系统 并 没有 使 用 ACPI 规范 进行 热 拔 插 管理 。 本 节 对 ACPI 的 热 
插 拔 管理 不 做 深入 介绍 。 

e PCI 设备 的 中 断 向 量 分 配 。 在 x86 处 理 器 平台 中 , 中断 向 量 的 分 配 始终 是 一 个 问题 。x86 
处 理 器 由 于 一 些 历史 遗留 问题 , 中 断 向 量 的 分 配 并 不 尽善尽美 , 而 x86 处 理 器 为 了 实现 
向 前 兼容 , 必须 保留 这 些 不 完美 。 本 章 将 在 第 15. 1. 1 节 详 细 介 绍 中 断 向 量 的 分 配 。 

e 一 些 集成 在 MCH 和 ICH 中 的 外 部 设备 。x86 处 理 器 使 用 PCI 配置 空间 存放 这 些 外 部 
设备 的 寄存 器 , 但 是 这 些 设备 并 不 都 是 严格 意义 上 的 PCI 设备 , 甚至 不 是 一 个 外 部 设 
备 。 如 在 x86 处 理 器 中 的 使 用 存储 器 映射 寻 址 的 一 些 寄 存 器 , 这些 寄存 器 被 存放 在 某 
个 PCI 设备 的 配置 空间 中 ,如 TOLUD 寄存 能 存放 在 Bus 号 、Device 号 和 Function 号 都 
为 0 的 PCI 设备 中 , 但 是 这 个 PCI 设 备 并 不 是 处 理 器 系统 的 标准 PCI 设备 。ACPI 规范 
需要 管理 这 类 “ 伪 PCI 设备 ”中 的 寄存 器 。 

目前 在 x86 处 理 器 中 ,新 引入 的 一 些 与 处 理 器 体系 结构 相关 的 特性 , 基本 上 都 只 使 用 
ACPI 机 制 进行 描述 , 而 不 再 使 用 BIOS。 因 此 为 了 深入 理解 x86 处 理 器 平台 , 需要 了 解 一 些 
与 ACPI 相关 的 基本 知识 。ACPI 规范 所 涉及 的 内 容 非常 广泛 , 与 ACPI 规范 有 关 的 全 部 知识 
可 以 独立 成 书 , 本 节 仅 简要 介绍 ACPI 规范 中 与 PCI 总 线 相 关 的 部 分 内 容 。ACPI 规范 的 各 部 
分 内 容 相 对 较为 独立 , 除了 ACPI 规范 的 开发 者 和 从 事 与 此 相关 的 系统 程序 员 之 外 , 绝 大 多 
数 程序 员 不 需要 了 解 与 ACPI 规范 相关 的 全 部 知识 。 

从 系统 软件 的 角度 上 看 ,ACPI 的 组 成 结构 如 图 14-1 所 示 。 从 图 中 可 以 发 现 , ACPI 用 以 
连接 系统 硬件 平台 与 操作 系统 , 在 屏蔽 了 硬件 的 实现 细节 的 同时 , 提供 了 一 系列 系统 资源 ， 
包括 ACPI 寄存 器 ( ACPI Registers) 、ACPI BIOS 和 ACPI 表 (ACPI Tables)。 


”微软 规定 了 一 系列 PnP 设备 规范 , 详 见 http://www. microsoft. com/ whdc/system/ pnppwr/ pnp/ default. mspx。 
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ACPI Register 
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下 


| Hardware/Platform specific technology,not part of ACPI 


Platform Hardware 


图 14-1 ACPI 的 组 成 结构 


当 一 个 处 理 器 系统 使 能 ACPI 机 制 后 , 操作 系统 访问 ACPI 管理 的 “ 非 标 ”外 设 时 , 首先 
通过 ACPI 机 制 提 供 的 一 套 标 准 API, 并 由 这 些 API 将 访问 存放 在 系统 内 存 中 的 ACPI 表 , 并 
通过 执行 ACPI 表 中 的 程序 读 写 ACPI 寄存 器 , 或 者 对 这 些 寄存 器 进行 操作 。 在 ACPI 表 中 ， 
除了 含有 处 理 器 系统 的 资源 信息 之 外 , 还 包括 管理 这 些 资 源 信息 的 操作 函数 , 因此 BIOS 厂 
商 通过 ACPI 表 即 可 实现 一 些 简单 的 设备 驱动 程序 。 

操作 系统 使 用 这 些 API, 并 通过 ACPI Driver/AML Interpreter 访问 ACPI 提供 的 系统 资源 ， 
包括 ACPI Registers 、ACPI BIOS 和 ACPI 表 。ACPI 表 对 于 理解 ACPI 机 制 较为 重要 , 在 第 
14. 2.2 节 和 第 14. 2. 3 节 将 专门 介绍 该 表 的 组 成 与 实现 。 

在 x86 处 理 器 系统 中 , 系统 资源 由 ACPI BIOS 维护 , 操作 系统 使 用 ACPI 提供 的 标准 API 
从 ACPI BIOS 中 获得 这 些 资 源 , 而 不 必 关 心 这 些 “ 非 标 ” 外 设 的 具体 实现 方式 ，, 因此 也 不 需 
要 使 用 特定 的 驱动 程序 访问 这 些 “ 非 标 ” 外 设 。 

因为 这 些 “ 非 标 ” 外 设 的 管理 由 ACPI BIOS 完成 , x86 处 理 器 使 用 ACPI 表 描 述 这 些 “ 非 
标 ” 外 设 , 并 将 这 个 ACPI 表 存 放 到 BIOS 中 。OEM 厂商 需要 在 标准 PC 处 理 器 平台 上 添加 一 
些 “ 自 定义 ”的 功能 时 ， 只 需 改动 ACPI 表 即 可 , 而 不 需要 改动 操作 系统 ， 从 而 极 大 地 降低 了 
操作 系统 的 集成 与 维护 难度 。 

ACPI 机 制 使 用 的 “标准 API” 在 ACPICA( ACPI Component Architecture Programmer Refer- 
ence) 规范 中 定义 。 这 些 标 准 API 与 操作 系统 相对 独立 ,从 而 便于 ACPICA 在 不 同 操作 系统 
中 的 实现 。 

如 图 14-1 所 示 ，ACPI 机 制 所 履 关 的 内 容 包 括 ACPI 寄存 器 组 、ACPI BIOS 和 ACPI 表 。 
在 ACPI 寄存 需 组 中 含有 电源 管理 、 处 理 需 控制 和 GPE( General-Purpose Event) 寄存 需 组 。 其 
中 处理 器 控制 寄存 器 组 是 可 选 的 , 而 电源 管理 和 GPE 寄存 器 组 是 必须 实现 的 。 这 些 与 ACPI 
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机 制 相 关 的 寄存 器 在 Intel 的 ICH 中 定义 。 

电源 管理 寄存 器 组 由 PMla_STS、PM1a_EN 、PM1b_STS 、PM1b_FEN 、PM1_CNTa 、PM1 _ 
CNTb 等 寄存 器 组 成 。 在 这 些 寄存 器 中 , PMla_STS 、PM1_CNTa 寄存 器 和 了 PM1a_EN 是 必须 支 
持 的 , 而 其 他 寄存 器 是 可 选 的 。 在 Intel 的 ICH9 中 ,PM1a_STS 寄存 器 与 PM1_STS 寄存 器 对 
应 , PM1_CNTa 寄存 器 与 PM1_CNT 寄存 器 对 应 , 而 PMla_EN 寄存 器 与 PM1_EN 寄存 器 对 应 。 
这 些 寄存 器 的 简单 描述 如 下 , 有 兴趣 的 读者 可 以 参考 [ Intel IO Controller Hub 9] 的 第 13. 8 节 
以 获得 这 些 寄存 器 的 详细 说 明 。 

e PM1_STS 寄存 需 包 含 当 前 处 理 吉 被 唤醒 的 原因 ， 以 及 一 些 与 电源 按键 (Power Button ) 

相关 的 信息 。 

。 通过 操作 PM1_CNT 寄存 器 可 以 使 处 理 器 进入 不 同 的 休眠 状态 , 并 确定 ACPI 中 断 请 求 
使 用 SCI 中 断 请 求 还 是 SMI2 中 断 请 求 。 

e PM1_EN 寄存 央 设 置 SCI( System Control Interrupt) 中 断 使 能 位 ,决定 当 PM1_STS 寄存 
器 的 状态 有 效 时 , 是 否 向 处 理 需 提交 SCI 中 断 请 求 。SCI 中 断 请 求 由 ACPI 规定 的 相应 
事件 使 用 , 并 缺 省 使 用 中 断 向 量 9 向 处 理 器 提交 中 断 请 求 , 操作 系统 使 用 中 断 服务 程 
序 进一步 处 理 来 自 ACPI 的 中 断 请 求 。 

GPE 寄存 器 组 是 ACPI 寄存 器 组 的 一 个 重要 组 成 部 分 , 由 GPE0_STS 、CPE0_EN 、GPE1_ 

STS 和 GPE1_EN 寄存 需 组 成 。 在 Intel 的 ICH9 中 , 由 General Purpose IO 寄存 如 组 实现 ACPI 
规范 的 GPE 寄存 器 组 。General Purpose 1/O 寄存 器 组 的 使 用 方法 非常 简单 , 对 此 有 兴趣 的 读 
者 可 以 参考 [Intel LO Controller Hub 9] 的 第 13. 10 节 。 

ACPI 的 GPEx_STS 和 GPEx_EN 寄存 器 的 使 用 方法 较为 简单 。 其 中 GPEx_STS 寄存 器 的 
每 一 位 在 GPEx_EN 寄存 器 中 都 有 一 个 使 能 位 ， 当 GPEx_STS 寄存 器 的 某 位 有 效 时 , 表示 产生 
了 一 个 GPE 事件 , 如 果 与 该 位 相对 应 的 使 能 位 也 有 效 时 , ICH 将 向 处 理 器 提交 SCI 中 断 请 
求 ,由 中 断 服 务 程序 进一步 处 理 这 个 GPE 事件 。 

ACPI BIOS 与 操作 系统 中 的 ACPI 驱动 程序 /AML 解释 器 ( ACPI Driver/ ACPI Machine Lan- 
guage Interpreter) 密切 相关 。 操 作 系 统 可 以 使 用 ACPICA 提供 的 标准 API， 再 通过 ACPI 驱动 
程序 /AML 解释 器 访问 ACPI BIOS, 并 从 ACPI BIOS 获得 相应 的 信息 后 执行 与 底层 硬件 相关 
的 代码 操纵 实际 的 设备 , 有 关 这 部 分 内 容 的 详细 说 明 见 下 文 。 

ACPI 表 描 述 处 理 髓 平台 使 用 的 资源 和 管理 这 些 资 源 的 执行 操作 , 操作 系统 可 以 通过 标 
准 的 API 函数 访问 ACPI 表 并 执行 相关 的 程序 ， 从 而 维护 整个 ACPI 系统 的 运转 。ACPI 表 是 
BIOS 提供 给 系统 软件 的 重要 资源 。 


14.2.1 ACPI 驱动 程序 与 AML 解释 器 


ACPI 驱动 程序 与 AML 解释 器 与 操作 系统 实现 相关 , 其 主要 目的 是 将 操作 系统 与 ACPI 
提供 的 资源 进行 隔离 。 如 上 文 所 述 ，ACPI 使 用 一 组 标准 的 API 函数 访问 ACPI 表 , 目前 
Unix/Linux 系统 使 用 ACPICA 规范 实现 这 些 接口 函数 ，ACPICA 的 组 成 结构 如 图 14-2 所 示 。 
值得 注意 的 是 Windows 使 用 了 其 他 方式 实现 这 些 接口 函数 。 


名 x86 处 理 器 接收 SMI 中 断 请 求 后 , 将 进入 SMM 模式 ， 此 时 将 由 BIOS 处 理 ACPI 中 断 请 求 。 而 SCI 中 断 也 被 称 为 
ACPI 中 断 , 下 文 将 详细 介绍 该 中 断 的 实现 机 制 。 


377 


Host | Host Operating System | x 


| ACPICA | [ee et 


于 


Implements ACPI Interfaces 


Resource Event 
Management Management 
Namespace ACPI Table ACPI Hardware 
Management Management Management 


AML Interpreter 


图 14-2 ACPICA 的 组 成 结构 


由 上 图 所 示 ， 当 操作 系统 需要 访问 ACPI 表 时 , 将 首先 通过 ACPICA 接口 函数 , 因此 在 一 
个 操作 系统 中 , 仅 需要 关注 ACPICA 接口 函数 , 而 不 必 了 解 硬 件 的 具体 实现 细节 , 并 由 BIOS 
管理 硬件 的 具体 实现 细节 。 从 而 使 得 某 x86 处 理 器 平台 引入 的 某 些 “ 自 定义 ”功能 仅 与 BIOS 
有 关 , 而 与 操作 系统 无 关 。 
1，ACPICA 接口 函数 
ACPICA 子 系统 提供 了 一 系列 标准 的 函数 接口 ，Host 0S 可 以 通过 这 些 函 数 接口 向 AML 
解释 器 传 递 数 据 ,， 并 由 AML 解释 需 访 问 ACPI 的 相关 资源 。 在 Linux 系统 的 . /drivers/acpi/ 
acpica 目录 中 , 定义 了 这 些 ACPI 接口 函数 , 这 些 ACPI 接口 函数 包括 以 下 几 大 类 。 本 章 并 不 
会 详细 介绍 这 些 接口 函数 ,而 仅 在 分 析 相 关 代码 时 简要 介绍 对 应 的 接口 函数 。 
e ACPI Table Management 接口 函数 。 这 组 API 负责 分 析 和 管理 在 操作 系统 中 存放 的 DS- 
DT 、FAT 等 描述 符 ，ACPI 表 在 操作 系统 引导 时 放 入 系统 内 存 中 , 有 关 ACPI 表 的 详细 
描述 见 第 14. 2. 2 节 。 
e Namespace Management 接口 函数 。 这 组 API 负责 创建 APCI 表 在 操作 系统 中 存放 的 名 
字 空 间 ， 并 管理 这 些 名 字 空间 。 
e Resource Management 接口 函数 。 在 名 字 空 间 中 包含 一 些 硬件 资源 , 如 IO 地 址 空间 和 
中 断 向 量 等 , 这 组 API 负责 管理 名 字 空 间 中 使 用 的 各 类 资源 。 
e Event Management 接口 也 数 。 这 组 API 负责 处 理 ACPI 中 的 各 类 Event, 包括 GPE 事件 


和 PM 事件 。 
e ACPI Hardware Management 接口 函数 。 这 组 API 负责 访问 ACPI 提供 的 各 类 硬件 资源 ， 
包括 寄存 器 和 中 断 。 


Host 0S 通过 ACPICA 提供 的 接口 函数 最 终 可 以 访问 AML 解释 器 , 并 由 AML 解释 器 访问 
底层 硬件 。 当 一 个 系统 使 能 了 ACPI 机 制 后 , 底层 硬件 的 实现 细节 将 被 屏蔽 ,AML 解释 器 并 
不 会 直接 访问 底层 硬件 , 而 是 直接 访问 ACPI 提供 的 硬件 抽象 展 。ACPI 使 用 AML 语言 描述 
这 个 硬件 抽象 层 。 
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在 一 个 处 理 器 系统 中 ,ACPI BIOS 将 提供 ACPI 表 , 并 由 BIOS 存放 到 处 理 咒 系统 的 特定 
存储 器 空间 中 。 操 作 系统 在 初始 化 时 , 需要 通过 某 个 地 址 找到 这 个 ACPI 表 。 

值得 注意 的 是 ACPI 主要 管理 “ 非 标 准 ” 外 部 设备 的 硬件 资源 , 并 不 会 管理 一 些 标准 外 
部 设备 ,如 标准 PCI 设备 , 因此 在 ACPI 表 中 并 不 包含 标准 PCI 设备 使 用 的 BAR 地 址 空间 等 
一 系列 标准 信息 , 但 是 会 管理 PCI 总 线 中 的 中 断路 由 表 。 

ACPI 表 由 AML 解释 器 负责 分 析 并 维护 , 在 ACPI 表 中 除了 存放 底层 硬件 的 资源 描述 外 ， 
还 可 以 操作 这 些 资源 。 有 关 ACPI 表 的 详细 介绍 见 下 文 。 

如 图 14-2 所 示 , 在 ACPICA 中 还 存在 一 个 0S 服务 层 ( OS Services Layer) 接口 , 该 接口 的 
主要 目的 是 保证 ACPICA 实现 的 “系统 独立 性 ”。 目前 在 Unix/Linux 系统 中 ，ACPICA 接口 
函数 使 用 0S 服务 层 接口 , 访问 与 ACPI 相关 的 硬件 资源 或 者 执行 相应 的 操作 。 

2. OS 服务 层 接 口 函数 

ACPICA 的 实现 与 操作 系统 无 关 , 但 是 ACPI 接口 函数 仍然 需要 使 用 一 些 操作 系统 资源 ， 
比如 ACPI 接口 函数 需要 使 用 操作 系统 提供 的 分 配 与 释放 内 存 资源 , 访问 PCI 设备 配置 空间 
等 一 系列 API 函数 。 

但 是 在 不 同 的 操作 系统 中 , 访问 系统 内 存 资源 、 访 问 PCI 配置 空间 所 需要 调用 的 API 区 
数 并 不 相同 。 为 了 保证 ACPICA 的 实现 与 操作 系统 无 关 ，ACPICA 抽象 了 0S 服务 层 接口 函 
数 。ACPICA 的 接口 函数 使 用 0S 服务 层 接口 函数 , 而 不 是 操作 系统 提供 的 函数 访问 HOST 
0S 的 资源 ,以 保证 ACPICA 的 独立 性 。 值 得 注意 的 是 , 在 不 同 的 操作 系统 中 ，ACPICA 定义 
这 组 函数 的 实现 并 不 相同 , 目前 Linux/Unix 系统 使 用 了 ACPICA 定义 的 这 组 函数 ， 而 Win- 
dows 使 用 其 他 的 方法 实现 这 些 功能 。 

在 Linux 系统 中 ,OS 服务 层 接口 函数 的 实现 在 . /drivers/acpi/osl.c 文件 中 , 在 该 文件 中 
提供 了 一 系列 访问 系统 资源 的 标准 了 水 数 , 这 些 函 数 实现 的 功能 相对 简单 ， 如 acpi_os_printf 也 
数 、acpi_os_sleep 图 数 、acpi_os_write_memory 、acpi_os_read_pci_configuration。 在 该 文件 中 ， 
还 包含 一 些 最 基本 的 与 访问 外 部 设备 、 内 存 管 理 和 进程 调度 相关 的 操作 函数 。 

例如 在 ACPICA 程序 释放 中 断 服务 例 程 时 , 需要 调用 acpi_os_remove_interrupt_handler 函 
数 , 而 不 能 直接 调用 Linux 系统 提供 的 free_irq 函数 ,即便 在 Linux 系统 中 , 这 两 个 函数 几乎 
等 价 。 因 为 acpi_os_remove_interrupt_handler 函数 的 主要 工作 就 是 调用 free_irq 函数 。 该 函数 
的 实现 如 源 代 码 14-11 所 示 。 


源 代 码 14-11 acpi_os_remove_interrupt_handler 函数 


acpl_status 
acpi_os_remove_interrupt_handler( u32 irq, acpi_osd_handler handler) 
| 
if (irq) | 
free_irq(irq, acpi_irq); 
acpi_irq_handler = NULL; 
acpi_irq_irq =0; 
| 


return AE_OF ; 
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但 是 在 开发 与 ACPICA 相关 的 函数 时 , 需要 调用 acpi_os_remove_interrupt_handler 函数 ， 
而 不 能 直接 使 用 free_irq 函数 ,以 保证 ACPICA 的 平台 无 关 性 ,因为 在 不 同 的 操作 系统 中 , 释 
放 中 断 服务 例 程 使 用 的 函数 并 不 相同 。 

ACPICA 使 用 0S 服务 层 接口 函数 , 极 大 降低 了 ACPICA 接口 函数 的 移植 难度 , 在 Linux 
系统 中 实现 的 ACPICA 接口 函数 可 以 方便 地 移植 到 其 他 操作 系统 中 。 


14.2.2 ACPI 表 


ACPI 规范 使 用 了 一 系列 描述 符 表 管理 处 理 器 系统 的 部 分 硬件 信息 , 而且 包含 与 这 些 硬 
件 相 关 的 操作 , 并 使 用 RSDP 指针 (Root System Description Pointer ) 指向 这 些 描述 符 表 。ACPI 
规范 定义 了 以 下 描述 符 表 。 

e XSDT( Extended System Description Table) 。XSDT 包含 ACPI 规范 的 版 本 号 和 一 些 与 
OEM 相关 的 信息 , 并 含有 其 他 描述 符 表 的 64 位 物理 地 址 ， 如 FADT( Fixed ACPI De- 
scription Table) 和 SSDT( Secondary System Description Table ) 等 。 

e RSDT( Root System Description Table) 。RSDT 包含 的 信息 与 XSDT 基本 一 致 ， 只 是 在 
RSDT 中 存放 的 物理 地 址 为 32 位 。 在 V1.0 之 后 的 ACPI 版 本 中 , 该 描述 符 表 被 XSDT 
取代 。 但 是 有 些 BIOS 可 能 会 为 操作 系统 同时 提供 RSDT 和 XSDT, 并 由 操作 系统 选择 
使 用 RSDT 还 是 XSDT。 

FADT。FADT 包含 ACPI 寄存 器 组 使 用 的 系统 IO 端口 地 址 、FACS ( Firmware ACPI 
Control Structure ) 和 DSDT (Differentiated System Description Table ) 的 基地 址 等 信息 。 
FADT 中 还 存放 了 一 个 “Boot Architecture Flags” 字 段 ,在 这 个 字段 中 存放 一 些 有 关 处 
理 需 系统 初始 化 的 基本 信息 , 详 见 [ Advanced Configuration and Power Interface Specifica- 
tion 4. 0] 的 Table 5-11。 值 得 注意 的 是 , FADT 的 识别 标识 是 “FACP”, 在 ACPI 表 中 ， 
FACP. dat 文件 存放 处 理 器 系统 的 FADT 表 。 

FACS。FACS 包含 0S 与 BIOS 进行 数据 交换 使 用 的 一 些 参数 , 包括 处 理 器 系统 的 硬件 
签名 ,以 及 Firmware 在 处 理 需 系统 被 唤醒 后 使 用 的 、 用 来 通知 操作 系统 Firmware 工作 
已 经 告 一 段落 的 中 断 向 量 ， 即 Firmware Waking Vector。 在 处 理 需 被 唤醒 之 后 ，Firm- 
ware 将 执行 一 些 基 本 的 加 载 操 作 , 并 通过 Firmware Waking 中 断 向 量 , 将 控制 权 交 还 给 
操作 系统 , 由 操作 系统 完成 其 他 的 唤醒 操作 。 在 FACS 中 , 还 包含 一 个 全 局 锁 ( Global 
Lock) ， 当 Firmware 和 操作 系统 对 某 些 临界 资源 进行 访问 时 , 需要 使 用 该 锁 。 

e DSDT。 该 表 是 ACPI 规范 最 复杂 , 同时 也 是 最 重要 的 一 个 表 。 该 表 包 含 处 理 央 系统 使 
用 的 硬件 资源 以 及 对 这 些 硬件 资源 的 管理 操作 。SSDT 可 以 对 DSDT 进行 补充 , 在 一 个 
处 理 器 系统 中 可 以 存在 多 个 SSDT。 

e ACPI 规范 还 定义 了 一 些 其 他 表 项 ,如 MADT( Multiple APIC Description Table) 、SBST 
(Smart Battery Table) 、 SRAT( System Resource Affinity Table) 和 SLIT( System Locality In- 
formation Table ) 等 一 系列 表 项 。 其 中 MADT 描述 处 理 器 系统 的 中 断 资源 和 多 处 理 器 相关 
的 配置 信息 ; SBST 与 电池 的 管理 相关 ; 而 SRAT 和 SLIT 与 NUMA 系统 的 资源 管理 相关 。 

在 ACPI 4. 0 中 , 上 述 这 些 表 的 组 成 结构 如 图 14-3 所 示 。 

如 上 图 所 示 , 在 RSDP 中 提供 了 两 个 物理 地 址 分 别 指向 RSDT 和 XSDT。 其 中 在 RSDT 和 
在 RSDT 指向 的 其 他 描述 符 表 中 , 如 SSDT 和 FADT 都 使 用 32 位 物理 地 址 , 而 在 XSDT 和 在 
XSDT 指向 的 其 他 描述 符 表 中 都 使 用 64 位 物理 地 址 。 在 ACPI 2. 0 规范 之 后 的 版 本 , 均 提供 
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RSDP 


RSDT Address 
XSDT Address 


32 位 物理 地 址 


地 址 


再 香 醋 姓 对 Z8 


图 14-3 ACPI 表 的 组 成 结构 


对 XSDT 的 支持 ,即使 用 64 位 物理 地 址 。 

ACPI 表 存 放 在 处 理 器 的 主 存储 器 中 , 当 处 理 器 系统 初始 化 时 ，BIOS 将 这 些 表 放 入 特定 
物理 内 存 , 之 后 系统 软件 可 以 访问 这 些 表 项 。Linux 系统 提供 了 一 系列 操作 ACPI 表 的 工具 ， 
用 户 可 以 使 用 这 些 工具 读 取 在 系统 内 存 中 的 ACPI 表 , 并 将 其 分 解 为 DSDT、XSDT 等 描述 符 
表 。 其 使 用 方法 如 源 代码 14-12 所 示 。 

源 代码 14-12 ”ACPI 表 的 提取 方法 


$ acpidump > tylersburg - hedt out 
$ acpixtract — a tylersburg — hedt. out 
$ iasl -d APCI dat 

$ iasl -dDSDT. dat 


$ iasl -d XSDT. dat 


首先 用 户 可 以 使 用 acpidump 命令 将 ACPI 表 从 内 存 读 出 , 之 后 存放 到 tylersburg-hedt. out 
文件 中 ; 然后 使 用 acpixtract 命令 将 tylersburg-hedt. out 文件 存放 的 ACPI 表 全 部 分 解 ， 并 得 到 
一 系列 后 缀 为 . dat 的 文件 , 其 中 RSDP. dat 文件 存放 RSDT 和 XSDT 表 的 物理 地 址 ; RSDT. dat 
文件 存放 对 RSDT 的 描述 ; 而 XSDT. dat 文件 存放 对 XSDT 的 描述 。 

这 些 . dat 文件 使 用 AML 语法 规范 , 操作 系统 中 的 AML 解释 器 可 以 分 析 这 些 在 . dat 文件 中 
的 数据 。 但 是 这 些 . dat 文件 并 不 适合 阅读 , 用 户 可 以 使 用 iasl 命令 将 这 些 . dat 文件 转换 为 相应 
的 . dsl 文件 。 在 . dsl 文件 中 存放 ASL( ACPI Source Language) 源 代码 ,ASL 是 一 种 高 级 语言 , 便 
于 阅读 和 编写 。 在 Linux 系统 中 , 可 以 使 用 以 下 方法 调试 ACPI 表 。 通 过 源 代 码 14-12, 可 以 得 
到 DSDT. dsl 文件 , 之 后 可 以 使 用 源 代码 14-13 所 示 的 方法 调试 DSDT 表 。 

源 代码 14-13 ”DSDT 表 的 调试 


$ iasl -tc DSDT. dsl \\ 产 生 一 个 DSDT hex 文件 
$ cp DSDT. hex $ SRC/include/ \\ 将 这 个 文件 复制 到 Linux 源 代 码 的 include 文件 夹 下 


向 . config 文 添 加 以 下 描述 

CONFIG_STANDALONE =n \\ 将 原 .config 的 y 改 写 为 n 
CONFIG_ACPI_CUSTOM_DSDT =y 
CONFIG_ACPI_CUSTOM_DSDT_FILE = "DSDT. hex” 
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经 过 以 上 操作 ， 重新 编译 Linux 内 核 ， 并 用 这 个 内 核 重 新 引导 Linux 系统 后 ， Linux 系统 
将 使 用 源 代码 14-13 指定 的 DSDT. hex 替代 BIOS 提供 的 DSDT 表 。 采 用 这 种 方法 , 可 以 对 
DSDT 表 进 行 调试 。 

14.2.3 ACPI 表 的 使 用 实例 


在 ACPI 提供 的 各 类 表 中 ，DSDT 描述 符 表 最 为 重要 。DSDT 描述 符 表 包 含 当 前 处 理 需 系 
统 使 用 的 一 些 硬件 资源 ,如 某 些 外 部 设备 使 用 的 地 址 空间 , 以 及 对 这 些 硬件 资源 的 操作 等 其 
他 描述 信息 。 

当 操作 系统 收 到 ACPI 中 断 请 求 , 即 SCI 中 断 请 求 时 , 将 根据 DSDT 中 提供 的 代码 对 相应 
的 ACPI 寄存 器 进行 操作 ， 从 而 完成 所 需 的 功能 。DSDT、ACPI 寄存 器 和 操作 系统 之 间 的 关系 
如 图 14-4 所 示 。 


FADT DSDT 


Header 


Differentiated 
Definition 


ACPI Driver 


矿 软 | | 本 到 
sy 
| oe LO 端口 地 址 空间 
LO 端口 地 址 空间 存储 器 地 址 空间 
PM2 寄 存 器 组 PCI 配 置 空间 
EC 空间 


图 14-4 DSDT、ACPI 寄存 器 和 操作 系统 之 间 的 关系 


下 文 将 举例 说 明 图 14-4 中 各 模块 之 间 的 关系 , 以 及 系统 软件 如 何 处 理 ACPI 表 。 假 设 在 
一 个 x86 处 理 吉 系统 中 , 电源 按钮 (Power Button ) 使 用 GPIO( General Purpose I/0) 方 式 与 处 理 
如 系 统 连接 ,而 不 是 使 用 Fixed hardware 方式 。 

在 ICH9 中 定义 了 一 个 PWRBTN# 信 号 , 该 信号 用 来 处 理 电源 按钮 。 如 果 在 一 个 处 理 噩 系 
统 中 , 电源 按钮 信号 连接 到 ICH9 的 PWRBTN# 信 号 时 , 处 理 器 系统 将 使 用 PM 寄存 器 组 处 理 
这 个 电源 按钮 ， 即 电源 按钮 使 用 了 Fixed hardware 方式 与 处 理 器 系统 进行 连接 ， 而 不 是 GPE 
方式 与 处 理 右 系统 进行 连接 。 

使 用 Fixed hardware 方式 处 理 电源 按钮 的 主要 缺点 是 不 够 灵活 ， 有 时 OEM 厂商 ( Original 
Equipment Manufacturer ) 可 以 利用 电源 按键 实现 一 些 自 定 义 的 功能 。 此 时 主板 设计 者 可 以 将 
电源 按钮 与 EC2 (Embedded Controller) 直接 相连 , 并 将 电源 按钮 事件 与 CPE 联系 在 一 起 。 使 
用 这 种 方式 时 OEM 厂商 可 以 灵活 地 控制 电源 按钮 。 


名 EC 可 以 连接 PS2 口 鼠 标 、 键 盘 ,并 可 以 扩展 其 他 自 定 义 接 口 。 在 x86 人 处理 器 中 ,EC 由 一 个 简单 的 MCU ( Micro 
Control Unit) 实现 。 
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当 用 户 按 下 电源 按钮 时 , EC 可 以 根据 其 按键 时 间 的 长 短 产生 不 同 的 电源 按钮 事件 ， 如 
“按键 小 于 4s” 和 “按键 大 于 4s” 所 对 应 的 电源 按钮 事件 。 而 且 在 x86 人 处理 器 系统 处 于 不 同 
的 运行 状态 , 如 GC0、G1l1 和 G2 时 , 对 电源 按钮 事件 的 解释 也 并 不 相同 。 

x86 人 处理 器 规定 了 一 系列 休眠 状态 , 其 中 G0 为 工作 状态 , 与 S0 状态 对 应 ; G1 为 休眠 状态 ， 
G1 状态 分 为 4 个 等 级 , 分 别 为 S1 ~S4, 其 中 编号 越 大 , 休眠 的 程度 越 深 ; G2 状态 为 Soft Off 状 
态 , 该 状态 与 5 状态 对 应 , 表示 当前 处 理 器 处 于 软 下 电 状 态 , 此 时 处 理 器 除了 一 些 最 基本 模 


块 , 如 EC、ICH 中 的 部 分 逻辑 和 Wake-on-LAN 机 制 仍然 保持 电源 供应 之 外 , 其 他 所 有 模块 均 不 


t 电 ; G3 状态 为 Mechanical Off 状态 2 ， 此 时 处 理 器 处 于 完全 断 电 状 态 , 全 部 模块 均 不 上 电 。 


下 文 仅 讨论 x86 人 处理 器 处 于 G0 和 G1 状态 时 ,如何 处 理 电 源 按钮 事件 。 在 x86 处 理 器 
中 , 处理 电 源 按钮 事件 的 解释 程序 在 DSDT 表 中 , 如 源 代 码 14-14° 所 示 。 


源 代码 14-14 与 电源 按钮 事件 相关 的 ASL 程序 


// Define a control method power button 
Device( \_SB. PWRB) | 
Name( _HID, EISAID( "PNPOCOC”)) 
Name(_PRW, Package( ) {0, 0x4)|) 
OperationRegion( \PHO, SystemIO, 0x200, Ox1) 
Field( \PHO, ByteAcce, NoLock, WriteAsZeros) | 
PBP, 1, // sleep/off request 
PBW, 1 // wakeup request 
| 


上 // end of power button device object 


Scope(\_GPE ) | // Root level event handlers 
Method( _L00)| // uses bit 0 of GPO_STS register 
If( \PBP) | 
Store( One, \PBP) // clear power button status 
Notify( \_SB. PWRB, 0x80) // Notify OS of event 
| 
If(C\PBW) | 
Store( One, \PBW) 
Notify( \_SB. PWRB, 0x2) 
| 
| // end of _L00 handler 
上 // end of \_GPE scope 


这 段 程序 的 说 明 如 下 : 


e 创建 一 个 “PWRB” 设 备 , 其 标识 (_HID ) 为 “PNP0COC”, 即 PWRB 设备 与 电源 按钮 


对 应 。 在 ACPI 中 , 每 一 个 设备 使 用 的 标识 不 相同 。 


名 处理 需 系统 没有 打开 电源 开关 时 ,处 理 天 系统 处 于 S5 状态 。 通 常 这 个 开关 在 ATX 电源 模块 中 。 
”这 段 源 代码 来 自 ACPI 规范 4.0, 在 一 个 实际 的 x86 处 理 器 系统 中 , 电源 按钮 的 处 理 可 能 与 此 不 同 。 
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。 将 _PRWO 定 义 为 Package( ) 10, 0x4| 。 其 含义 为 在 处 理 器 处 于 S1 ~ S4 状态 时 , 电源 按 
钮 可 以 将 处 理 器 系统 唤醒 , 而 且 此 时 使 用 GPEx_STS 寄存 器 的 第 0 位 作为 唤醒 状态 位 。 
处 理 器 在 即将 进入 休眠 模式 时 , 需要 检查 对 应 设备 的 _PRW 参数 , 并 保证 处 理 器 系统 
进入 的 休眠 等 级 不 大 于 设备 在 _PRW 的 定义 ,同时 需要 保证 GPEx_EN 寄存 器 的 对 应 位 
是 有 效 的 , 否则 处 理 器 进入 休眠 模式 时 , 不 能 被 这 个 按键 事件 唤醒 。 对 于 本 节 所 提供 
的 实例 , 如果 处 理 器 进入 的 休眠 等 级 大 于 S4, 或 者 在 进入 休眠 状态 之 前 GCPEx_EN 寄 
存 器 的 第 0 位 没有 使 能 时 , 用 户 将 不 能 使 用 “ACPI 机 制 提 供 的 电源 按钮 事件 ”激活 处 
理 絮 系统 。 
e 声明 一 个 PHO 变量 , 使 用 的 VO 端口 地 址 为 0x200, 这 个 WO 端口 的 第 0 位 和 第 1 位 
分 别 与 PBP 和 PBW 位 对 应 。 其 中 PBP 位 为 1 表示 处 理 器 系统 处 于 S0 状态 时 电源 按 
钮 被 按 下 ， 此 时 处 理 器 需要 进入 休 眼 状态 ; PBW 位 为 1 表示 处 理 器 系统 处 于 S1 ~ S4 
状态 时 ,电源 按钮 被 按 下 ,此 时 处 理 器 需要 被 唤醒 。 
e 从 Scope(\_GPE ) 开 始 的 这 段 程序 描述 对 电源 按钮 事件 的 处 理 过 程 。 当 GPEx_STS 寄 
存 器 的 第 0 位 为 1 时 , 将 进一步 检查 PBP 和 PBW 位 。 
e 如 果 PBP 位 为 1, 则 首先 向 PBP 位 写 1, 清除 这 个 状态 位 , 之 后 通知 OSPM 当前 电源 按 
钮 对 应 的 回调 号 为 0x802。 回 调 号 为 0x80 表示 在 处 理 器 处 于 S0 状态 时 , 电源 按钮 被 
按 下 。 
e 如 果 PBW 位 为 1, 则 首先 向 PBW 位 写 1, 清除 这 个 状态 位 , 之 后 通知 OSPM 当前 电源 
按钮 对 应 的 回调 号 为 0x02。 回 调 号 为 0x02 表示 设备 发 出 了 一 个 唤醒 信和 号。 
由 以 上 描述 , 可 以 发 现在 源 代码 14-14 中 , 除了 定义 了 一 个 PWRB 设备 之 外 , 还 使 用 
ASL 语言 简单 描述 了 当 有 PBW 或 者 PBP 事件 发 生 时 ,处理 器 的 执行 操作 。 对 于 一 个 具体 的 
操作 系统 , 如 Linux, 需要 将 PBW/PBP 事件 和 处 理 这 些 事 件 的 执行 操作 联系 在 一 起 。 
当 电 源 按钮 被 按 下 时 ,如果 GPEx_EN 寄存 妖 的 相应 位 被 使 能 , 则 处 理 器 的 GPIO 接口 将 
置 CPEx_STS 寄存 器 的 对 应 位 为 1, 同时 向 处 理 器 提交 SCI 中 断 请 求 。Linux 系统 首先 需要 提 
供 处 理 这 个 SCI 中 断 请 求 的 中 断 服务 例 程 , 然后 进一步 处 理 这 些 SCI 中 断 请 求 。 
在 Linux 系统 中 , 这 个 中 断 服 务 例 程 为 acpi_ev_sci_xrupt_handler 图 数 , 该 了 水 数 即 为 SCI 
中 断 服 务 例 程 。SCI 中 断 服务 例 程 具有 3 个 输入 参数 , 如 下 所 示 。 
e gsi 参数 为 acpi_gbl_FADT. sci_interrupt, 缺 省 值 为 0x09 。 
e handler 参数 为 acpi_ev_sci_xrupt_handler。 


e context 参数 为 acpi_gbl_gpe_xrupt_list_head。 

Linux 系统 进行 初始 化 , 该 中 断 服 务 例 程 由 acpi_early_init 函数 调用 acpi_enable_subsys- 
tem 函数 挂 接 到 Linux 系统 的 中 断 处 理 服务 主 程序 (do_IRQ 函数 ) 中 ，acpi_ev_sci_xrupt_han- 
dler 范 数 的 详细 说 明 在 . /drivers/acpi/acpica/evsci. c 文件 中 。 

acpi_enable_subsystem 困 数 的 详细 实现 在 . /drivers/acpi/acpica/utxface. ce 文件 中 , 该 孔 数 
将 调用 acpi_ev_install _xrupt_handlers 一 acpi_ev_install _sci_handler 函数 注册 SCI 中 断 服务 例 
程 。acpi_ev_install_sci handler 函数 如 源 代码 14-15 所 示 。 


 _PRW 是 Power Resources for Wake 的 缩写 ， 可 以 将 处 理 器 从 休眠 状态 唤醒 的 设备 需要 使 用 PRW。 
四 ACPI4.0 规范 的 第 5.6 节 APIC Event Programming Model 中 定义 了 一 系列 回调 号 。 
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源 代 码 14-15 ”acpi_ev_install_sci_handler 函数 


u32 acpi_ev_install_sci_handler( void ) 


| 
u32 status = AE_OK.; 


ACPI_FUNCTION_TRACE(ev_install_sci_handler) ; 


status = 


acpi_os_install_interrupt_handler( (u32) acpi_gbl_FADT. sci_interrupt, 


acpi_ev_sci_xrupt_handler, 
acpi_gbl_gpe_xrupt_list_head ) ; 
return_ACPI_ STATUS(status ) ; 


acpi_ev_install_sci_handler 图 数 将 调用 acpi_os_install_interrupt_handler 困 数 ,并 将 acpi_ 
gbl_FADT. sci_interrupt 、acpi_ev_sci_xrupt_handler 和 acpi_gbl_gpe_xrupt_list_head 参数 传递 给 
该 函数 。acpi_gbl_FADT. sci_interrupt 为 SCI 中 断 使 用 的 irq 号 ，acpi_ev_sci_xrupt_handler 即 
为 SCI 中 断 处 理 函 数 ，acpi_gbl_gpe_xrupt_list_head 为 SCI 中 断 处 理 函 数 使 用 的 人口 参数 。 


acpi_os_install_interrupt_handler 函数 的 实现 如 源 代码 14-16 所 万 


pa 


oO 


源 代码 14-16 acpi_os_install_interrupt_handler 函数 


acpi_status 


acpi_os_install_interrupt_handler( u32 gsi, acpi_osd_handler handler, void * context) 


| 


unsigned int irq; 
acpi_irq_stats_init( ) ; 


* I[gnore the GSI from the core, and use the value in our copy of the 
* FADT. LI may not be the same if an interrupt source override exists 
* for the SCL 
*/ 
gsi = acpi_gbl_FADT. sci_interrupt; 
if (acpi_gsi_to_irq(gsi, &irq) < 0) | 
printk( KERN_ERR PREFIX "SCI ( ACPI GSI % d) not registered\n’”, gsi); 
return AE_OK; 
| 


acpi_irq_handler = handler; 

acpi_irq_context = context ; 

if (request_irq(irq, acpi_irq, IRQF_SHARED, "acpi”, acpi_irq)) | 
printk( KERN_ERR PREFIX “SCI (IRQ%d) allocation failed\n”, irq); 
return AE_NOT_ACQUIRED ; 
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| 
acpl_irq_irq = irq; 
return AE_OK; 

| 


这 段 程 序 首先 调用 acpi_irq_stats_init 函数 建立 sysfs 中 的 kobject, 之 后 从 FADTS 中 获得 
ACPI 使 用 的 中 断 向 量 , 在 绝 大 多 数 x86 处 理 器 系统 中 , SCI 中 晰 使 用 的 irdq 号 为 0x9。 之 后 这 
段 程序 调用 request_irq, 将 acpi_irq 函数 与 irq 号 0x9 联系 在 一 起 。 之 后 Linux 系统 将 使 用 ac- 
pi_irq 函数 处 理 SCI 中 断 请 求 , 该 函数 的 实现 如 源 代码 14-17 所 示 。 

源 代码 14-17 ”acpi_irq 函数 


static irqreturn_t acpi_irq( int irq, void * dev_id) 
| 
u32 handled; 


handled = ( * acpi_irq_handler) (acpi_irq_context); 


if (handled) | 
acpi_irq_handled ++ ; 
return IRQO_HANDLED ; 

| else | 
acpi_irq_not_handled ++ ; 
return IRQ_NONE; 


| 


acpi_ird 函数 的 主要 作用 是 执行 ( * acpi_irq_handler ) (acpi_irq_context) 函数 , 并 检查 执行 结果 
是 否 正确 。acpi_irq_handler 函数 指针 在 acpi_os_install_interrupt_handler 函数 中 被 赋值 为 acpi_ev_ 
sci_xrupt_handler 函数 。 因 此 在 Linux ACPI 的 实现 中 , acpi_ev_sci_xrupt_handler 函数 为 真正 的 SCI 
中 断 服 务 例 程 ,该 国 数 在 . /drivers/acpi/acpica/ evsci.c 文件 中 , 如 源 代码 14-18 所 示 。 

源 代 码 14-18 acpi_ev_sci_xrupt_handler 函数 


/ 米 米 米 米 米 米 米 米 米 米 米 米 米 米 炒米 米 米 米 米 米 米 米 米 米 米 炒米 炒米 玉米 米 米 米 米 炒米 米 米 米 米 米 米 玉米 米 米 米 米 米 米 米 米 米 米 炒米 米 米 米 米 米 米 米 米 米 米 米 


米 


x 


FUNCTION : acpi_ev_sci_xrupt_handler 


区 


PARAMETERS: Context - Calling Context 


兴 


RETURN : Status code indicates whether interrupt was handled. 


区 


DESCRIPTION: Interrupt handler that will figure out what function or 


名 在 FACP.dsl 文件 中 存放 SCI Interrupt 使 用 的 中 断 向 量 。 
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米 control method to call to deal with a SCL 
水 
沙洲 玉米 炒米 炒米 米 米 炒米 炒米 米 洲 玉米 米 米 洲 米 米 米 米 炒米 米 米 炒米 米 米 炒米 炒米 米 洲 玉米 米 洲 玉米 米 米 米 米 米 米 米 米 米 米 米 玉米 玉米 炒米 玉米 米 米 米 沾 / 
static u32 ACPI_ SYSTEM_XFACE acpi_ev_sci_xrupt_handler( void * context ) 
struct acpi_gpe_xrupt_info * gpe_xrupt_list = context; 


u32 interrupt_handled = ACPI_INTERRUPT_NOT_HANDLED ; 
ACPI_FUNCTION_TRACE( ev_sci_xrupt_handler) ; 


/* 
* We are guaranteed by the ACPI CA initialization/ shutdown code that 
* if this interrupt handler is installed, ACPI is enabled. 
*/ 


/* 
* Fixed Events: 
* Check for and dispatch any Fixed Events that have occurred 
*/ 


interrupt_handled | =acpi_ev_fixed_event_detect( ) ; 


/* 
* General Purpose Events: 
* Check for and dispatch any GPEs that have occurred 
*/ 

interrupt_handled | = acpi_ev_gpe_detect( gpe_xrupt_ list); 


return_UINT32( interrupt_handled) ; 
| 


该 孔 数 首先 调用 acpi_ev_fixed_event_detect 函数 检查 PM 寄存 需 组 ,判断 是 否 存在 PM 事 
件 , 之 后 调用 acpi_ev_gpe_detect 函数 检查 是 否 存在 GPE 事件。 上 文中 描述 的 PBW 和 PBP 事 
件 由 acpi_ev_gpe_detect 图 数 处 理 。 

acpi_ev_gpe_detect 子 数 的 执行 逻辑 较为 简单 ,本 节 不 再 列 出 该 函数 的 源 代码 , 该 函数 在 
. /drivers/acpi/acpica/evgpe. c 文件 中 , 属于 ACPICA 提供 的 Event Management 接口 函数 。 该 
函数 首先 获得 一 个 自 旋 锁 acpi_gbl_gpe_lock, 之 后 检查 GPEx_STS 寄存 器 和 GPEx_EN 寄存 器 
以 确定 处 理 器 系统 中 存在 的 GPE 事件 , 然后 调用 acpi_ev_gpe_dispatch 函数 执行 源 代码 14-14 
中 Method(_L00) 之 后 的 程序 。 

acpi_ev_gpe_dispatch 函数 在 执行 源 代 码 14-14 中 的 ASL 程序 时 , 采用 解释 执行 的 方法 。 
而 解释 执行 相 比 编译 执行 而 言 , 执行 效率 较 低 , 为 此 该 函数 调用 acpi_os_execute 函数 ,使 用 
Linux 系统 提供 的 Work Queue 机 制 , 脱离 中 断 处 理 程序 的 上 下 文 环境 ,“ 异 步 ”地 分 析 并 解释 
执行 这 些 ASL 程序 。 


日 ”该 函数 为 ACPICA 提供 的 0S 服务 层 接口 函数 。 
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在 Linux 系统 中 , 与 ACPI 机 制 相关 的 程序 虽然 数量 众多 , 处理 的 事务 也 较 多 , 但 是 其 逻 
辑 结构 较为 简单 , 本章 对 此 不 做 进一步 分 析 和 说 明 。 


14.3 基于 ACPI 机制 的 Linux PCI 的 初始 化 


本 节 重 点 介绍 Linux 系统 如 何 使 用 ACPI 机 制 ， 对 PCI 总 线 树 进行 枚 举 。Linux 的 ACPI 
系统 的 初始 化 较为 复杂 。 本 节 重 点 介绍 与 PCI 总 线 相关 的 一 些 基 本 模块 ,并 不 会 介绍 与 AC- 
PI 系统 初始 化 相关 的 全 部 内 容 。 

在 Linux 系统 中 ，ACPI 系统 的 初始 化 由 两 部 分 组 成 , 一 部 分 由 start_kernel 一 setup_arch 
函数 执行 , 另 一 部 分 作为 模块 由 do_initcalls 函数 执行 。 


14.3.1 基本 的 准备 工作 


setup_arch 函数 将 分 别 调 用 acpi_boot_table_init、 early_acpi_boot_init 和 acpi_boot_init 函数 
完成 ACPI 系统 的 初始 化 , 这 几 个 函数 的 源 代码 在 . /arch/x86/kernel/acpi/boot. c 文件 中 。 

acpi_boot_table_init 函数 调用 acpi_table_init 函数 在 内 存 中 找到 RSDP 和 RSDTAXSDT, 从 
而 定位 ACPI 表 。BIOS 在 系统 初始 化 时 将 ACPI 表 放 到 一 块 固定 物理 地 址 区 域 中 ; early_acpi_ 
boot_init 基数 调用 early_acpi_process_madt 图 数 进一步 处 理 MADT; 而 acpi_boot_init 函数 依次 
分 析 SBFTS (Simple Boot Flag Table) 、FADT 和 HPET(IA-PC High Precision Event Timer Ta- 
pble) , 其 中 HPET 是 Intel 定义 的 一 个 高 精度 定时 器 。 

setup_arch 函数 执行 完毕 后 ，Linux 系统 将 调用 do_initcalls 困 数 执行 与 ACPI 系统 相关 的 
一 些 模块 , 其 中 与 PCI 总 线 有 关 的 模块 有 acpi_pci_init、 acpi_pei_root_init 和 acpi_pci_jlink_init 
函数 。 这 些 函 数 的 说 明 如 下 。 

1. acpi_pci_init 函数 

acpi_pci_init 水 数 的 执行 过 程 较为 简单 ,该 函数 在 . /drivers/pci/pci-acpi. e 文件 中 ,如 源 
代码 14-19 所 示 。 

源 代码 14-19 ”acpi_pci_init 函数 


static int _init acpi_pci_init( void) 


int ret; 


if (acpi_gbl_FADT. boot flags & ACPI_FADT_NO_MSI) | 
printk( KERN_INFO”"ACPI FADT declares the system doesn't support MSI, 
so disable it\n”); 
pci_no_msi( ) ; 


| 


if (acpi_gbl_FADT. boot flags & ACPI FADT_NO_ASPM) | 
printk ( KERN_INFO’”ACPI FADT declares the system doesn't support PCIe 


名 “该 表 由 Microsoft 定义 详情 见 http://www. microsoft. com/ whdc/resources/ respec/ specs/simp_boot. mspx。 
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ASPM, so disable it\n”); 
pcie_no_aspm( ) ; 
| ret = register_acpi_bus_type(&acpi_pci bus ) ; 
if (ret) 
return 0 ; 
pei_set_platform_pm( &acpi_pci_platform_pm); 
return 0; 
| 


arch_initcall( acpi_pci_init) ; 


该 函数 首先 分 析 “Boot Architecture Flags” 字 段 ,， 确定 当前 处 理 器 系统 是 否 需要 使 能 MSI 
中 断 机 制 和 PCIe 设备 的 ASPM( Active State Power Management ) 机 制 ，ASPM 机 制 的 详细 描述 
见 第 8.3 节 , 而 MSI 机 制 的 详细 说 明 见 第 10 章 。 该 函数 调用 register_acpi_bus_type 函数 , 将 
acpi_pci_bus 结构 加 入 到 全 局 链表 bus_type_list, 最 后 调用 pci_set_platform_pm 图 数 将 全 局 变 
量 pci_platform_pm 赋值 为 acpi_pci_platform_pm。 

2. acpi_pci_root_init 函数 

acpi_pci_root_init 函数 调用 acpi_pci_root_add 和 acpi_pci_root_start 图 数 遍 历 处 理 吉 系统 
中 的 PCI 总 线 树 。 在 Linux 系统 中 ，acpi_pci_root_init 函数 的 调用 关系 较为 复杂 , 本 市 仅 介 绍 
其 调用 过 程 , 并 不 详细 介绍 其 实现 机 制 。 

acpi_pci_root_init 函数 的 调用 过 程 如 源 代 码 14-20 所 示 。 

源 代码 14-20 acpi_pci_root_init 函数 的 调用 过 程 


acpi_pci_root_init -> acpi_bus_register_driver -> driver_register 
—> bus_add_driver -> driver_attach -> _driver_attach 


—> driver_probe_device -> really_probe -> ( dev -> bus -> probe) 


由 以 上 过 程 可 见 acpi_pcei_root_init 图 数 将 调用 really_probe 函数 中 的 (dev -> bus - 
probe) 因数 ,而 dev -> bus -> probe 国 数 在 acpi_device_register 图 数 中 被 赋值 为 acpi_device_ 
probe 国 数 。 

acpi_device_probe 了 水 数 又 经 过 了 一 系列 复 森 的 调用 , 最 终 调用 acpi_pei_root_add 和 acpi_ 
pci_root_start 函数 ， 14-21 所 示 。 


源 代码 14-21 acpi_pci_root _init 函数 的 调用 过 程 


acpi_device_probe 
| ———> acpi_bus_driver_init 
| | =——> driver -> ops. add 
| -一 一 之 acpi_start_single_object 


| -一 一 之 driver -> ops. start 


其 中 driver -> ops. add 图 数 与 acpi_pci_root_add 函数 对 应 ; 而 driver -> ops. start 四 数 与 
acpi_pci_root_start 图 数 对 应 。acpi_pci_root_add 函数 在 ./ Py acpiApci_root. c 文件 中 , 该 
函数 的 主要 功能 是 遍历 PCI 总 线 树 ,如 源 代码 14-22 ~ 23 和 源 代码 14-31 所 示 。 
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源 代 码 14-22 acpi_pci_root_add 函数 片段 1 


static int _devinit acpi_pci_root_add( struct acpi_device * device) 
| 

unsigned long long segment, bus; 

acpi_status status; 

int result; 

struct acpl_pcl_root * root; 

acpi_handle handle; 

struct acpi_device * child; 


u32 flags, base_flags; 


segment =0; 
status = acpi_evaluate_integer( device -> handle, METHOD_NAME_SEG, NULL, 
Csegment ) ; 
if (ACPI_FAILURE( status) && status ! =AE NOT FOUND) | 
printk( KERN_ERR PREFIX "can't evaluate _SEG\n’); 
return — ENODEYV., 
| 


/* Check _CRS first, then _BBN. If no _BBN, default to zero. */ 
bus =0; 
status = try_get_root_bridge_busnr( device -> handle，&bus ) ; 
if (ACPI_FAILURE( status) ) | 

status = acpi_evaluate_integer( device -> handle, METHOD_NAME_BBN, 

NULL, &bus ) ; 
if (ACPI_FAILURE( status) &e& status ! =AE NOT_ FOUND) | 
printk( KERN_ERR PREFIX 
"no bus number in _CRS and can't evaluate _BBN\n"); 


return 一 ENODEYV ; 


| 


root = kzalloc( sizeof( struct acpi_pci_root) GFP_KERNEL); 
让 (! root) 
return — ENOMEM; 


INIT_LIST_HEAD( &root -> node ) ; 

root -> device = device; 

root -> segment = segment & O0xFFFT ; 

root -> bus_nr = bus & OxFF; 

strepy( acpi_device_name( device), ACPI_PCI_ROOT_DEVICE_NAME); 
strepy( acpi_device_class( device), ACPI_PCI_ROOT_CLASS); 


device -> driver_data = root; 


到 
* All supported architectures that use ACPI have support for 
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* PCI domains, so we indicate this in _OSC support capabilities. 
*/ 
flags = base_flags = 0SC_PCL_ SECMENT_CROUPS_SUPPORT; 


acpi_pci_osc_support( root, flags); 


WR 
* TBD: Need PCI interface for enumeration/ configuration of roots. 
*/ 


/* TBD: Locking */ 
list_add_tail( &root -> node, &acpi_pci_roots); 


printk( KERN_INFO PREFIX "%s [%s] (%04x:%02x) \n”, 


acpi_device_name( device) , acpi_device_bid( device), 


root -> segment, root -> bus_nr); 


这 上段 代码 通过 ACPI 表 中 的 _SEG 和 _BBN 参数 获得 HOST 主 桥 使 用 的 Segment 和 Bus 号 ， 
创建 一 个 acpi_pci_root 结构 , 并 对 该 结构 进行 初始 化 , 随后 将 acpl_pcl_root 结构 加 入 到 acpl_ 
pci_roots 队列 中 。 acpl_pci_root 结构 的 主要 功能 是 对 当前 HOST 主 桥 控制 器 进行 描述 和 而 在 
acpi_pci_roots 队列 中 包含 当前 x86 处 理 器 系统 所 有 HOST 主 桥 的 信息 。 

当 x86 处 理 需 系统 中 只 有 一 个 HOST 主 桥 时 ，acpi_pci_root_add 也 数 仅 会 被 Linux 调用 一 
次 , 此 时 acpi_pci_roots 队列 中 只 有 一 个 数据 成 员 , 即 root, 其 Segment 和 Bus 号 均 为 0; 如 果 
存在 多 个 HOST 主 桥 时 ，acpi_pci_root_add 函数 将 在 PCI 总 线 初始 化 时 被 调用 多 次 , 并 将 所 有 
主 桥 信息 加 入 到 acpi_pci_roots 队列 中 。 

这 段 代码 还 将 HOST 主 桥 的 _OSC 参数 的 PCI Segment Groups supported 位 设置 为 1, 该 参 
数 在 ACPI 规范 中 定义 , 该 位 为 1 时 表示 当前 处 理 器 系统 支持 PCI Segment Group。 

源 代 码 14-23 acpi_pci_root_add 函数 片段 2 


/i* 
* Scan the Root Bridge 


* Must do this prior to any attempt to bind the root device, as the 
* PCI namespace does not get created until this call is made (and 
* thus the root bridge's pci_dev does not exist). 
*¥/ 
root -> bus = pci_acpi_scan_root( device, segment, bus); 
这 (! root->bus) | 
printk( KERN_ERR PREFIX 
"Bus % O04x:%02x not present in PCI namespace \n”, 
root -> segment, root -> bus_nr); 
result = -ENODEYV ; 


goto end ; 


外 Itanium 处 理 器 系统 含有 多 个 对 等 HOST 主 桥 ; 而 在 多 数 x86 处 理 器 系统 中 , 仅 含 有 一 个 HOST 主 桥 。 
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在 一 个 x86 处 理 需 系统 中 , 如 果 没 有 使 能 ACPI 机 制 , 则 Linux 系统 调用 pei_legacy_init 一 > 
pcibios_scan_root 函数 枚 举 PCI 设备 。 如 果 Linux 系统 使 能 了 ACPI 机 制 ， 则 由 这 上段 程序 调用 
pci_acpi_scan_root 函数 完成 PCI 设备 的 枚 举 。pci_acpi_scan_root 和 pcibios_scan_root 函数 对 
PCI 总 线 树 的 枚 举 过 程 类 似 。 

pci_acpi_scan_root 困 数 在 . /arch/x86/pci/acpi.c 文件 中 , 如 源 代码 14-24 所 示 。 
源 代 码 14-24 ”pci_acpi_scan_root 函数 


struct pci_bus * _devinit 

pei_acpi_scan_root( struct acpi_device * device, int domain, int busnum ) 
struct pci_bus * bus; 
struct pci_sysdata * sd; 


int node; 


/* Allocate per— root— bus (not per bus) arch - specific data. 
* TODO: leak; this memory is never freed. 
* It's arguable whether it's worth the trouble to care. 
*/ 
sd = kzalloc( sizeof( * sd), GFP_KERNEL); 
站 (! sd) | 
printk( KERN_ERR “PCI: OOM, not probing PCI bus %02x\n”, busnum); 
return NULL; 
| 


sd -> domain = domain ; 
sd -> node = node; 
有 
* Maybe the desired pci bus has been already scanned. In such case 
* it is unnecessary to scan the pci bus with the given domain ,busnum. 
*/ 
bus = pci_find_bus( domain ，busnum ) ; 
证 (bus) | 
2 
* If the desired bus exits, the content of bus -> sysdata will 
* be replaced by sd. 
*/ 
memcpy(bus -> sysdata, sd, sizeof( * sd) ) ; 
kfree(sd) ; 
| else | 
bus = pci_create_bus( NULL, busnum, &pci_root_ops, sd); 
让 (bus) | 
if (pei_probe & PCI_USE_CRS) 


get_current_resources( device ，busnum ，domain ,bus ) ; 
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bus -> subordinate = pci_scan_child_bus( bus); 


return bus ; 


这 段 代码 首先 判断 当前 总 线 号 是 否 已 经 存在 ,如果 存在 说 明 这 条 总 线 已 经 被 遍 历 过 , 该 
函数 将 直接 退出 。 否 则 将 首先 调用 pci_create_bus 困 数 ，pci_create_bus 函数 的 源 代码 在 ./ 
drivers/pci/probe. c 文件 中 , 其 主要 作用 是 为 当前 HOST 主 桥 创建 pci_bus 结构 , 并 初始 化 这 
个 pci_bus 结构 的 部 分 参数 如 resource[ 0/1] ，secondary 参数 ?等 ,然后 将 这 个 pci_bus 结构 加 
入 到 全 局 链表 pci_root_buses 中 , 最 后 进行 一 些 与 sysfs 相关 的 初始 化 工作 。 

之 后 调用 pci_scan_child_bus 国 数 对 当前 PCI 总 线 上 的 设备 进行 枚 举 , pci_scan_child_bus 
函数 将 完成 对 PCI 总 线 树 的 枚 举 操作 , 该 函数 是 Linux 遍历 PCI 总 线 树 的 要 点 ， 下 一 他 将 专 
门 介绍 讨论 该 函数 的 实现 机 制 。 


14.3.2 Linux PCI 初始 化 PCI 总 线 号 


PCI 总 线 树 的 枚 举 由 pei_scan_child_bus 函数 完成 ， 该 函数 的 主要 作用 是 分 配 PCI 总 线 树 
的 PCI 总 线 号 , 而 并 不 初始 化 PCI 设备 使 用 的 BAR 空间 。 

pci_scan_child_bus 函数 在 第 一 次 执行 时 ,首先 遍历 当前 HOST 主 桥 之 下 所 有 的 PCI 设 
备 , 如 果 在 HOST 主 桥 下 含有 PCI 桥 , 将 再 次 遍历 这 个 PCI 桥 下 的 PCI 设备 。 并 以 此 递归 , 直 
到 将 当前 PCI 总 线 树 遍历 完毕 ,并 返回 当前 HOST 主 桥 的 subordinate 总 线 号 。subordinate 总 
线 号 记载 当前 PCI 总 线 树 中 最 后 一 个 PCI 总 线 写 , 因此 只 有 完成 了 对 PCI 总 线 树 的 枚 举 后 ， 
才能 获得 该 参数 。pci_scan_child_bus 函数 如 源 代 码 14-25 和 源 代码 14-29 所 示 。 


源 代码 14-25 ”pci_scan_child_bus 函数 片段 1 


unsigned int _devinit pci_scan_child_bus( struct pci_bus * bus) 


unsigned int devfn, pass, max = bus -> secondary; 


struct pci_dev * dev; 


pr_debug( ”PCI: Scanning bus %04x:%02x\n”, peci_domain_nr( bus), 


bus -> number) ; 


/* Go find them, Rover! */ 
for (devfn =0; devfn < 0xl00; devftn + =8) 


pei_scan_slot( bus, devfn); 


”resource 参数 存放 HOST 主 桥 管理 的 存储 器 和 1/O 地 址 空间 ,Secondary 参数 存放 Secondary 总 线 号 。 
钙 “Linux PCI 将 递归 调用 pci_scan_child_bus 函数 。 
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该 函数 首先 调用 pci_scan_slot 函数 , 扫描 当前 PCI 总 线 的 所 有 设备 , 并 将 其 加 入 到 对 应 
总 线 的 设备 队列 中 。 在 pci_scan_bus_parented 函数 调用 pci_scan_child_bus 函数 时 ,其 输入 参 
数 为 HOST 主 桥 的 pci_bus 结构 , 此 时 pci_scan_slot 函数 首先 初始 化 与 HOST 主 桥 直接 相连 的 
PCI 设备 , 即 Bus 号 为 0 的 PCI 设备 。 

1. pci_scan_slot 函数 

一 条 PCI 总 线 上 最 多 有 32 个 设备 , 每 个 设备 最 多 有 8 个 Function。 pci_scan_child_bus 也 
数 需 要 枚 举 每 一 个 可 能 存在 的 Function。 因 此 对 于 一 条 PCI 总 线 ， pci_scan_child_bus 函数 需 
要 调用 0x100 次 pci_scan_slot 困 数 。 而 pci_scan_slot 函数 调用 pci_scan_single_device 函数 配 
置 对 当前 PCI 总 线 上 的 所 有 PCI 设备 。 

pci_scan_single_device 因数 进一步 调用 了 pci_scan_device 和 pci_device_add 困 数 。 其 中 
pci_scan_device 函数 主要 对 PCI 设备 的 配置 寄存 器 进行 读 写 操 作 , 侧重 于 PCI 设备 进行 硬件 
层面 的 初始 化 操作 , 而 pci_device_add 函数 侧重 于 软件 层面 的 初始 化 。pci_scan_device 函数 
如 源 代码 14-26 所 示 。 


源 代 码 14-26 ”pci_scan_device 函数 


static struct pci_dev * pci_scan_device(struct pci_bus * bus，int devfn ) 
| 

struct pci_dev * dev; 

u32 1; 

int delay =1; 


if (pei_bus_read_config_dword( bus, devftn, PCI_VENDOR_ID, &l)) 
return NULL; 


/* some broken boards return 0 or ~0 if a slot is empty: */ 
让 (1==Oxffffffff | 1 1==0x00000000 11 

1==0x0000ffff | 1 1==Oxffff0000 ) 

return NULL.; 


/* Configuration request Retry Status */ 
while (1==Oxfffo001) | 
msleep( delay) ; 
delay * =2; 
if (pei_bus_read_config dword( bus, devftn, PCI_VENDOR_ID, &l)) 
return NULL; 
/* Card hasn't responded in 60 seconds? Must be stuck. */ 
让 (delay > 60 * 1000) | 
printk( KERN_WARNING ”pei %04x:%02x:%02x. Wd: not” 
"responding \n”, pci_domain_nr( bus), 
bus -> number, PCI_SLOT( devfn), 
PCI_FUNC( devfn) ) ; 
return NULL; 
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dev = alloc_pci_dev( ) ; 
i (! dev) 
return NULL; 


dev -> bus = bus; 

dev -> devfn = devfn ; 

dev -> vendor =1 & Oxffff; 

dev -> device = (1] >> 16) & Oxffff; 


if (pei_setup_device( dev) ) | 
kfree( dev); 
return NULL; 

| 


return dev; 


pci_scan_device 图 数 首先 读 取 PCI 设备 的 Vendor ID 和 Header Type 寄存 器 ,并 根据 这 两 
个 寄存 器 的 内 容 对 PCI 设备 进行 完整 性 检查 ,之 后 创建 pci_dev 结构 ,并 对 该 结构 进行 基本 
的 初始 化 。 

set_pcie_port_type 函数 的 主要 作用 是 处 理 PCI Express Extended Capabilities 结构 , 并 将 其 
保存 在 pci_dev 一 pcie_type 参数 中 , 该 结构 的 详细 描述 见 第 4. 3. 2 节 。 值 得 注意 的 是 , 在 
Linux 系统 中 , 许多 PCIe 设备 并 没有 提供 该 结构 。 在 这 段 源 代 码 的 最 后 将 调用 pci_setup_de- 
vice 函数 ,其 实现 如 源 代码 14-27 所 示 。 

源 代码 14-27 ”pci_setup_device 函数 


static int pci_setup_device( struct pci_dev # dev) 


| 


U32 class; 
switch (dev —>hdr type) | /* header type */ 
case PCI_HEADER_TYPE_NORMAL.: /x* standard header */ 
if (class == PCI_CLASS_BRIDGE_PCI) 
goto bad; 


pci_read_irq( dev) ; 
pci_read_bases( dev, 6, PCI_ROM_ADDRESS);; 
pcei_read_config_word( dev， 
PCI_SUBSYSTEM_VENDOR_ID, &dev -> subsystem_vendor ) ; 
pei_read_config_word( dev, PCI_SUBSYSTEM_ID, &dev -> subsystem_device ) ; 


| 
break ; 
case PCI_HEADER_TYPE_BRIDGE: /* bridge header */ 
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if (class ! =PCL CLASS_BRIDCE_PCI ) 
goto bad ; 

/* The PCI -to -PCL bridge spec requires that subtractive 
decoding (i.e. transparent) bridge must have programming 
interface code of Ox01. */ 

pci_read_irq( dev) ; 

dev -> transparent = ( (dev -> class & 0xff) ==1) ; 

pei_read_bases( dev, 2，PCIL_ROM_ADDRESS1 ) ; 

break ; 


case PCI_HEADER_TYPE_CARDBUS: /* CardBus bridge header */ 
if (class ! =PCL CLASS_BRIDCE_CARDBUS ) 
goto bad ; 
pci_read_irq( dev) ; 
pci_read_bases(dev，1, 0) ; 
pcei_read_config_word( dev， 
PCI_CB_SUBSYSTEM_VENDOR_ID, &dev -> subsystem_vendor ) ; 
pcei_read_config_word( dev， 
PCI_CB_SUBSYSTEM_ID, &dev -> subsystem_device ) ; 
break ; 


return 0 ; 


pci_setup_device 函数 首先 根据 Header Type 寄存 器 , 判断 当前 PCI 设备 是 PCI Agent 设 
备 、PCI 桥 还 是 Card Bus。PCI Agent 设备 使 用 的 配置 空间 与 PCI 桥 所 使 用 的 配置 空间 并 不 相 
同 , 因此 Linux PCI 需要 区 别处 理 这 两 种 配置 空间 。 本 节 和 忽略 Card Bus 的 处 理 过 程 。 

pci_setup_device 国 数 需要 调用 pci_read_irq 和 pci_read_bases 国 数 访问 PCI 设备 的 配置 
空间 , 并 进一步 初始 化 pci_dev 结构 的 其 他 参数 。 

pci_read_irq 函数 的 主要 作用 是 读 取 PCI 设备 配置 空间 的 Interrupt Pin 和 Interrupt Line 寄 
存 器 , 并 将 结构 赋值 到 pci_dev 一 pin 和 irq 参数 中 。 其 中 pin 参数 记录 当前 PCI 设备 使 用 的 中 
断 引 脚 ， 而 irq 参数 存放 系统 软件 使 用 的 irq 号 。 

值得 注意 的 是 , 在 pci_setup_devic 函数 中 初始 化 的 pci_dev 一 irq 参数 并 不 一 定 是 PCI 设 
备 驱 动 程序 在 request_irq 函数 中 使 用 的 ird 入 口 参数 。 如 果 当 前 Linux x86 系统 使 用 了 IO A- 
PIC 控制 器 时 ，Linux 设备 驱动 程序 调用 pci_enable_device 函数 将 会 改变 pci_dev 一 irq 参数 ， 
详 见 第 15. 1. 1 节 。 

而 如 果 PCle 设备 使 能 了 MSILAMSI - X 中 断 处 理 机 制 ，pci_dev 一 ird 参数 在 设备 驱动 程序 
调用 pci_enable_msi/pci_enable_msix 函数 后 也 将 会 发 生变 化 , 详 见 第 15. 2 节 。 只 有 x86 处 理 
器 使 用 8259A 中 断 控制 器 处 理 PCI 设备 的 中 断 请 求 时 ，pci_dev 一 irq 参数 才 与 mterrupt Line 
寄存 需 中 的 值 一 致 。 

pci_read_bases 函数 访问 PCI 设备 的 BAR 空间 和 ROM 空间 , 并 初始 化 pci_dev 一 resource 
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参数。 在 第 12.3. 2 节 Capric 卡 的 初始 化 中 使 用 的 pei_resource_start 和 pci_resource_len 函数 
就 是 从 pci_dev 一 resource 参数 中 获得 BAR 空间 使 用 的 基地 址 与 长 度 。 

这 里 有 一 个 细节 需要 提醒 读者 注意 , 在 pci_dev 一 resource 参数 中 存放 的 BAR 空间 的 基地 
址 属于 存储 器 域 , 而 在 PCI 设备 的 BAR 寄存 器 中 存放 的 基地 址 属于 PCI 总 线 域 。 在 x86 处 理 
器 中 , 这 两 个 值 虽然 相同 , 但 是 所 代表 的 含义 不 同 。 

pci_read_bases 函数 调用 _pci_read_base 函数 对 pci_dev 一 resource 参数 进行 初始 化 ，_pci_ 
read_base 限 数 的 实现 方式 如 源 代码 14-28 所 示 。 

源 代码 14-28 _pci_read_base 函数 


int _pci_read_base( struct pci_dev * dev, enum pci_bar_ type type, 


struct resource * res, unsigned int pos) 


u32 1, sz, mask; 
mask =type ? ~PCI_ROM_ADDRESS_ENABLE : ~0; 
res -> name = pci_name( dev) ; 


pci_read_config_ dword( dev, pos, &l); 
pei_write_config_dword( dev, pos, mask); 
pci_read_config_ dword( dev, pos, &sz); 
pei_write_config_dword( dev, pos, 1); 


if (type==pci bar mem64) | 


| else | 


sz = pci_size(l, sz, mask); 
i (! sz) 


goto fail; 


res -> start = ]; 


res ->end=1] + sz; 
| 
return (type ==pci_bar mem64) ? 1 : 0; 


res -> flags =0; 


goto out ; 


_pci_read_base 图 数 的 实现 较为 简单 ,本 节 仅 介绍 该 图 数 获 取 BAR 空间 长 度 的 方法 。 

PCI 总 线 规范 规定 了 获取 BAR 空间 的 标准 实现 方法 。 其 步骤 是 首先 向 BAR 寄存 需 写 全 1, 之 

后 再 读 取 BAR 寄存 带 的 内 容 , 即 可 获得 BAR 空间 的 大 小 。 

我 们 以 Capric 卡 为 例 说 明 该 过 程 , 由 上 文 所 示 Capric 卡 的 BARO 空间 为 不 可 预 读 的 存储 

器 空间 , 大 小 为 0x10000 字 节 。 这 个 设备 在 被 初始 化 之 前 , 其 BARO 寄存 器 的 值 由 硬件 预 置 ， 
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其 值 为 0xFFFF-0000, 其 中 BARO 寄存 器 的 第 15 ~ 0 位 只 读 , 其 15 ~4 字段 为 0 表示 所 申请 的 
空间 大 小 为 64 KB; 第 3 位 为 0 表示 不 可 预 读 ; 第 2 ~ 1 字段 为 0x00 表示 BARO 空间 必须 映射 
到 PCI 总 线 域 的 32 位 地 址 空间 中 ; 第 0 位 为 0 表示 为 存储 右 空 间 。 

当 系 统 初始 化 完毕 后 , 将 BARO 寄存 器 重新 进行 赋值 ， 其 值 为 PCI 总 线 域 的 地 址 ， 如 
0x9030-0000。 当 软件 对 这 个 寄存 器 写 人 “ ~0x0” 之 后 , 该 寄存 器 的 值 将 变 为 0xFFFF-0000， 
为 最 后 16 位 只 读 。 采 用 此 方法 可 以 获得 Capric 卡 BARO 空间 的 大 小 。 在 Linux 系统 中 , 可 以 使 
用 pci_size 函数 将 0xFFFF-0000 转换 为 BARO 空间 使 用 的 实际 大 小 , 即 64 KB。 这 段 程序 在 获得 
BAR 空间 的 基地 址 和 长 度 后 , 继续 判断 当前 BAR 空间 为 64 位 PCI 总 线 地 址 空间 , 还 是 32 位 
PCI 总 线 地 址 空间 。 为 简化 程序 , 本 节 仅 列 出 处 理 “32 位 PCI 总 线 地 址 这 种 情况 ”的 源 代码 。 

如 果 是 当前 PCI 设备 使 用 32 位 地 址 空间 , 则 这 有 段 程序 将 初始 化 pci_dev 一 resource 的 start 
和 end 参数 ; 如 果 是 64 位 地 址 空间 , 该 函数 也 需要 初始 化 pci_dev 一 resource 的 start 和 end 参 
数 , 只 是 过 程 稍微 复杂 。 这 段 代 码 留 给 读者 分 析 。 

细心 的 读者 在 分 析 _pei_read_base 因数 后 , 会 对 “pci_read_config_dword (dev, pos, &1)” 
语句 产生 疑问 。 因 为 从 Linux PCI 的 初始 化 过 程 , 我 们 并 没有 发 现 处 理 需 何 时 将 PCI 设备 的 
BAR 寄存 器 初始 化 , 此 时 读 到 变量 1 的 究竟 是 什么 数值 ? 

在 x86 处 理 器 系统 中 , 虽然 Linux PCI 并 没有 对 PCI 设备 的 BAR 空间 进行 初始 化 操作 ， 
但 是 BIOS 已 经 完成 了 对 PCI 总 线 树 的 枚 举 过 程 , 因此 变量 1 将 保存 有 效 的 BAR 空间 基地 址 。 
对 于 其 他 处 理 器 体系 , 负责 初始 化 引导 的 Firmware 可 能 并 没有 实现 PCI 总 线 树 的 枚 举 2 ,此 
时 变量 1 将 保存 PCI 设备 的 硬件 复位 值 。 

无 论 对 于 哪 种 处 理 需 系统 ,执行 _pci_read_base 函数 总 能 获得 正确 BAR 空间 的 大 小 。 但 
是 如 果 有 些 处 理 器 系统 的 Firmware 没有 对 PCI 总 线 树 进行 枚 举 时 , PCI 设备 的 BAR 空间 中 仅 
为 上 电 复 位 值 。 在 这 些 处 理 吉 系统 中 ，_pcei_read_base 函数 执行 完毕 后 , 在 pei_dev 一 *resource 
中 保存 的 start 和 end 参数 仅 是 PCI 设备 从 E2PROM 中 获得 的 初始 值 。 

2，pci_scan_bridge 函数 

再 次 回 到 pei_scan_child_bus 函数 , 分 析 剩 余 的 程序 ， 如 源 代 码 14-29 所 示 。 

源 代码 14-29 ”pci_scan_child_bus 函数 片段 2 


/* 
* After performing arch - dependent fixup of the bus, look behind 
* all PCI -to — PCI bridges on this bus. 
*¥/ 
证 (1! bus ->is_added) | 
pr_debug( "PCI: Fixups for bus % 04x:%02x\n”, 
pei_domain_nr( bus), bus -> number) ; 
pcibios_fixup_bus( bus); 
if (pei_is_root_bus( bus) ) 
bus -> is_added = 1; 


旬 ”这些 处 理 器 的 Linux 系统 , 将 在 pcibios_assign_resources 函数 中 初始 化 BAR 空间 ， 详 见 下 文 。 
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for (pass =0; pass < 2; pass ++) 
list_for_each_entry( dev, &bus -> devices，bus_list) | 
if (dev -> hdr type == PCI_HEADER_TYPE_BRIDGE || 
dev -> hdr_type == PCI_HEADER_TYPE_CARDBUS) 


max = pci_scan_bridge( bus, dev, max, pass); 


* We've scanned the bus and so we know all about what's on 
the other side of any bridges that may be on this bus plus 


* any devices. 


* Return how far we've got finding sub - buses. 
*/ 
pr_debug( "PCI: Bus scan for %04x:%02x returning with max = %02x\n”, 
pci_domain_nr( bus), bus -> number, max); 
return max; 


| 


pci_scan_child_bus 函数 执行 完毕 pci_scan_slot 图 数 后 , 将 首先 调用 peibios_fixup_bus 郴 
数 。pcibios_fixup_bus 范 数 的 主要 目的 是 为 一 些 PCI 设备 中 的 errata 提供 work-around, 但 是 在 
该 函数 中 还 全 有 一 个 非常 重要 的 函数 ， 即 peci_read_bridge_bases 了 艺 数 。 

因为 历史 原因 pci_read_bridge_bases 国 数 一 直 存 在 于 pcibios_fixup_bus 国 数 中 , 但 是 这 个 
画 数 更 应 该 直接 放 和 人 到 pci_scan_child_bus 图 数 中 。pci_read_bridge_bases 函数 将 读 取 当前 
PCI 桥 9 的 1/O Limit、 1/O Base 、Memory Limit、Memory Base 、Prefetchable Memory Limit 和 Pre- 
fetchable Memory Base 寄存 器 , 并 根据 这 些 寄存 器 的 值 , 初始 化 pci_bus 一 resource 参数 ,该 参 
数 存 放 当前 PCI 桥 所 能 管理 的 地 址 空间 。 

之 后 pci_scan_child_bus 困 数 将 调用 pci_scan_bridge 困 数 处 理 当 前 PCI 总 线 上 所 挂 接 的 
PCI 桥 , 并 初始 化 在 这 个 桥 片 Secondary PCI 总 线 上 的 PCI 设备 。 值 得 注意 的 是 pci_scan_ 
bridge 函数 被 调用 了 两 次 ,一 次 pass 参数 等 于 0, 另外 一 次 pass 参数 等 于 1。 

在 一 个 处 理 器 系统 中 , 有 些 负责 初始 化 引导 的 Firmware 可 能 已 经 完成 对 PCI 总 线 树 的 枚 
举 操作 , 而 有 些 Firmware 没有 做 这 样 的 操作 。 当 pass 参数 等 于 0 时 ,pei_scan_bridge 函数 处 
理 “ 已 完成 枚 举 ” 的 PCI 桥 ; 当 pass 参数 等 于 1 时 ,pci_scan_bridge 函数 处 理 “ 尚 未 完成 枚 
举 ” 的 PCI 桥 。 对 于 x86 处 理 器 系统 而 言 ，BIOS 将 预先 对 PCI 总 线 树 进行 枚 举 ; 而 对 于 其 他 
处 理 需 系统 ， 如 PowerPC 处 理 器 系统 ，U-Boot 并 没有 进行 这 个 枚 举 操作 ; 当然 还 存在 一 种 可 
能 , 就 是 Firmware 完成 了 部 分 枚 举 。 无 论 是 哪 种 情况 , 通过 两 次 调用 pci_scan_bridge 函数 ， 
都 将 完成 对 处 理 器 系统 中 所 有 PCI 桥 的 处 理 。 

在 Linux PCI 中 有 许多 函数 都 是 通用 函数 ， 即 各 类 处 理 器 系统 都 需要 使 用 的 函数 , 这 些 


”如 果 当 前 PCI 桥 为 HOST 主 桥 ， pei_read_bridge_bases 也 数 将 直接 返 
在 pci_create_bus 函数 中 进行 了 初始 化 。 


回 


。 因 为 HOST 主 桥 使 用 的 pci_bus 结构 已 经 
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通用 函数 给 Linux PCI 的 设计 带 来 了 不 小 的 麻烦 。 为 不 同 的 处 理 需 平台 开发 通用 架构 , 是 对 
任何 资深 系统 程序 员 的 巨大 考验 。 在 Linux PCI 中 有 许多 这 样 的 程序 。 pci_scan_bridge 水 数 
是 其 中 之 一 , 该 函数 的 主体 实现 如 源 代 码 14-30 所 示 。 


源 代 码 14-30 ”pci_scan_bridge 函数 


int _devinit pei_scan_bridge( struct pci_bus * bus, struct pci_dev * dev, int max, int pass) 
| 

struct pci_bus * child; 

int is_cardbus = (dev -> hdr_type == PCL_HEADER_TYPE_CARDBUS ) ; 

u32 buses, i, j=0; 

ul6 bct; 


int broken =0; 


pei_read_config dword( dev, PCI_PRIMARY_BUS, &buses); 


if ( (buses & 0xffff00) && | pcibios_assign all_busses( ) 
&& | is_cardbus && ! broken) | 


if (pass) 
goto out; 


busnr = (buses >> 8) & OxFF; 
goto out; 


busnr = (buses >> 8) & OxFF; 


child = pei_find_bus( peci_domain_nr( bus), busnr); 
二 


child = pci_add_new_bus(bus，dev，busnr) ; 
if (1! child) 
goto out; 
child -> primary = buses & OxFF; 
child -> subordinate = (buses >> 16) & 0xFT; 
child -> bridge_ctl = betl; 
| 


cmax = pci_scan_child_bus( child ) ; 
i (cmax > max) 
max = cmax; 
if (child -> subordinate > max) 
max = child -> subordinate ; 
| else | 


if (! pass) | 
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i (! pass) | 
if (peibios_assign_all_busses( ) || broken) 


pei_write_config_dword( dev, PCI_PRIMARY_BUS, 
buses & ~Oxffffff) ; 


goto out; 


| 


/* Clear errors */ 


pei_write_config_word( dev，PCL_ STATUS ，Oxffff) ; 


/* Prevent assigning a bus number that already exists. 
* This can happen when a bridge is hot -plugged */ 
if (pcei_find_bus(pci_domain_nr(bus), max +1)) 


goto out; 
child = pci_add_new_bus(bus, dev, ++max); 
buses = (buses & 0xff000000 ) 
| ( (unsigned int) (child -> primary) <<0) 
| ( (unsigned int) (child -> secondary) < 
| ( (unsigned int) (child -> subordinate ) < < 16); 


pei_write_config dword( dev, PCI_PRIMARY_BUS, buses); 


child -> subordinate = max; 


pei_write_config_byte( dev, PCI_SUBORDINATE_BUS, max); 


pei_write_config word( dev, PCI_BRIDGE_CONTROL, betl); 
return max; 


| 


pci_scan_bridge 函数 首先 读 取 当前 PCIAHOST 主 桥 配 置 空间 的 第 21 ~ 18 字 节 , 这 段 数据 
的 描述 如 第 2. 3 节 所 示 。 在 这 段 数据 中 , 依次 存放 PCI 桥 配 置 寄 存 器 的 Se Latency 
Timer 、Subordinate Bus Number 、Secondary Bus Number 和 Primary Bus Number 寄存 器 


这 上段 程序 通过 判断 PCI 桥 的 Subordinate 和 Secondary 总 线 号 是 否 为 0, 判断 当前 Di 桥 是 


否 已 经 被 初始 化 。 如 果 Subordinate 或 者 Secondary 总 线 号 不 为 0， 
Firmware 遍历 ; 如 果 为 0, 表示 没有 被 Firmware 遍历 。 
如 果 当 前 PCI 桥 已 经 被 Firmware 遍历 , 即 ( (bus & 0xffff00).. 


则 表示 该 PCI 桥 已 经 被 


. ) 的 计算 结果 为 True 时 ， 


这 段 程序 将 继续 判断 pass 参数 , 如果 为 1 则 跳出 ; 否则 这 段 程序 将 直接 调用 pci_add_new_bus 


函数 为 这 个 PCI 桥 创 建 pci_bus 结构 ,然后 递归 调用 pci_scan_child_ 


bus 函数 初始 化 该 PCI 桥 


管理 的 PCI 子 树 。 当 pci_scan_child_bus 函数 递归 执行 完毕 后 , 这 段 程 序 将 重新 修正 pci_bus 


一 subordinate 人 参数。 
如 果 当 前 PCI 桥 没 有 被 Firmware 遍历 , 即 ((bus & 0xffff00).. 


. ) 的 计算 结果 为 False 时 ， 


这 段 程序 将 执行 “else” 分 支 , 并 首先 判断 pass 参数 是 否 为 0, 如 果 为 0 则 跳出 ; 否则 这 段 程 
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序 将 调用 pci_add_new_bus 函数 为 这 个 PCI 桥 创 建 并 初始 化 pci_bus 结构 , 同时 还 需要 初始 化 
PCI 桥 的 Subordinate Bus Number 、Secondary Bus Number 和 Primary Bus Number 寄存 器 , 之 后 


这 段 程序 也 递归 调用 pci_scan_child_bus 函数 。 当 pci_scan_child_bus 函数 递归 完毕 后 , 重新 


修正 pci_bus 一 subordinate 参数。 
3. acpi_pci_root_add 函数 的 剩余 操作 
当 pci_scan_bridge 函数 执行 完毕 后 , 我 们 再 次 回 到 acpi_pci_root_add 函数 ,如 源 代码 


14-31 所 示 。 


源 代 码 14-31 acpi_pci_root_add 函数 片段 3 


end : 


| 


result = acpi_pci_bind_root( device ) ; 
if (result) 


goto end; 


status = acpi_get_handle( device -> handle, METHOD_NAME_PRT, &handle); 
if (ACPI_SUCCESS( status ) ) 
result = acpi_pci_irq_add_prt( device -> handle, root -> bus ) ; 


list_for_each_entry( child, &device -> children, node) 
acpi_pci_bridge_scan( child) ; 


/* Indicate support for various _OSC capabilities. */ 
if (pcei_ext_cfg_avail( root -> bus -> self) ) 

flags | = O0SC_EXT_PCIL_CONFIC_SUPPORT; 
if (pcie_aspm_enabled( ) ) 

flags | =OSC_ACTIVE_STATE_PWR_SUPPORT | 

OSC_CLOCK_PWR_CAPABILITY_SUPPORT.; 

if (pci_msi_enabled( ) ) 

flags | = OSC_MSI_SUPPORT.; 
if (flags ! =base_ flags) 


acpi_pci_osc_support( root, flags); 


return 0 ; 


if (! list_empty( &root -> node) ) 
list_del( &root -> node ) ; 
kfree(root ) ; 


return result ; 


这 段 代 码 首先 调用 acpi_pei_bind_root 函数 绑 定 acpi_device 与 pci_bus 结构 。 该 函数 还 将 


acpi_device 一 ops. bind 和 ops. unbind 参数 分 别 赋值 为 acpi_pci_bind 和 acpi_pci_unbind。 然 后 


这 段 代 码 调 用 acpi_pci_irq_add_prt 和 acpi_pci_bridge_scan 国 数 分 析 当 前 处 理 器 系统 的 中 断 
路 由 表 , 这 部 分 内 容 将 在 第 15. 1. 2 节 介 绍 。 
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这 段 代 码 在 pcie_aspm_enabled 、pci_msi_enabled 函数 成 功 返 


回 后 将 HOST 主 桥 的 _OSC 


参数 的 “MSI supported 位 ”和 “Active State Power Management supported” 位 设置 1。 


4.acpi_pci_root_start 函数 


acpi_pci_root_add 图 数 执行 完毕 后 ，Linux x86 将 调用 acpi_pci_root_start 图 数 。 该 图 数 首 
先 扫 描 acpi_pci_roots 链表 , 并 调用 pci_bus_add_devices 函数 处 理 这 个 链表 中 的 每 一 个 HOST 
主 桥 。pci_bus_add_devices 困 数 在 . /driver/pci/bus. ec 文件 中 , 其 实现 如 源 代 码 14-32 所 示 。 


源 代 码 14-32 ”pci_bus_add_devices 函数 


void pci_bus_add_devices( const struct pci_bus * bus) 
| 

struct pci_dev * dev; 

struct pci_bus * child; 


int retval; 


list_for_each_entry( dev, &bus -> devices, bus_list) | 
/* Skip already -added devices */ 
if (dev ->is_added) 
continue ; 
retval = pci_bus_add_device( dev ) ; 
if (retval ) 


dev_err(&dev -> dev, "Error adding device ，continuing\n ) ; 


| 


list_for_each_entry( dev, &bus -> devices, bus_list) | 
BUG_ON(! dev ->is_added ) ; 


child = dev -> subordinate ; 


if (1 child) 
continue; 
if (list_empty( &child -> node) ) | 


down_write( &pci_bus_sem); 


list_add_tail( &child -> node, &dev -> bus -> children ) ; 


up_write( &pci_bus_sem ) ; 
| 
pci_bus_add_devices( child ) ; 


if (child -> is_added ) 

continue ; 
retval = pci_bus_add_child( child) ; 
if (retval ) 


dev_err( &dev -> dev, "Error adding bus continuing\n’”); 


这 段 代 码 首 先 调用 pci_bus_add_device 函数 , 将 当前 PCI 总 线 (pci_bus 结构 ) 上 的 所 有 


PCI 设备 的 相关 信息 (pei_dev 结构 ) 加 入 到 proc 和 sysfs 文件 系统 中 。 
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之 后 这 段 代码 递归 调用 pci_bus_add_devices 函数 遍历 当前 PCI 总 线 上 所 有 PCI 子 桥 。 这 
段 代 码 最 后 调用 pci_bus_add_child 函数 初始 化 PCI 子 桥 pci_bus 结构 的 dev. parent 参数 , 并 将 
一 些 相关 信息 加 入 到 sysfs 文件 系统 中 。 

当 acpi_pci_root_start 图 数 返回 后 ，acpi_pci_root_init 国 数 将 执行 完毕 。Linux 系统 将 继续 
调用 acpi_pci_link_init 函数 进一步 初始 化 PCI 总 线 , 该 函数 与 PCI 总 线 的 中 断路 由 相关 , 在 
第 15. 1. 3 节 将 详细 介绍 该 函数 的 实现 。 


14.3.3 Linux PCI 检查 PCI 设备 使 用 的 BAR 空间 


当 acpi_pci_link_init 函数 执行 完毕 后 ，Linux PCI 开始 执行 pci_subsys_init 函数 。 在 第 
14. 1.3 节 曾 简要 介绍 了 该 函数 的 实现 , 该 函数 如 源 代码 14-9 所 示 。 

当 一 个 处 理 器 系统 使 能 了 ACPI 机 制 ,pci_subsys_init 函数 的 执行 路 径 将 会 发 生变 化 。 该 
函数 将 首先 执行 pci_acpi_init 函数 ， 并 跳 过 pci_legacy_init 和 pcibios_irq_init 图 数 之 后 ,执行 
pcibios_init 图 数 。pci_acpi_init 函数 的 实现 较为 简单 ,其 源 代码 在 . /arch/x86/pei/acpi.c 文 
件 中 , 如 源 代码 14-33 所 示 。 

源 代码 14-33 ”pci_acpi_init 函数 


int _init peci_acpi_init( void) 


| 
struct pci_dev * dev = NULL; 


if (pcibios_scanned) 


return 0 ; 


if (acpi_noirq) 


return 0 ; 


printk( KERN_INFO "PCI: Using ACPI for IRQ routing\n’”); 
acpi_irq_penalty_init( ) ; 
pcibios_scanned ++ ; 


pcibios_enable_irq = acpi_pci_irq_enable; 


pcibios_disable_irq = acpi_pci_irq_disable; 


if (pei_routeirq) | 


for_each_pci_dev( dev) 
acpi_pci_irq_enable( dev); 


| 


return 0 ; 


| 


该 函数 首先 调用 acpi_irq_penalty_init 函数 更 新 acpi_irq_penalty 表 , 该 函数 与 Linux 系统 
使 用 的 IRQ Balance 技术 相关 , 对 此 感 兴趣 的 读者 可 以 从 http://www. irqbalance. org 网 站 获得 
更 多 的 信息 , 本 书 并 不 关心 这 部 分 内 容 。 
这 上 段 程序 将 pcibios_scanned 人 参数 置 1 ,并 将 pcibios_enable_irq 和 pcibios_disable_irq 参数 
初始 化 为 acpi_pci_irq_enable 和 acpi_pci_irq_disable。 这 也 是 Linux 系统 使 能 ACPI 机 制 后 ， 
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Linux PCI 并 不 执行 pei_legacy_init2 和 pcibios_irq_init 函数 的 原因 。 最 后 这 段 程序 使 用 acpi_ 
pci_irq_enable 函数 为 当前 PCI 总 线 树 上 的 所 有 PCI 设备 分 配 irq 号 。 

如 果 当 前 处 理 需 系统 使 能 了 ACPI 机 制 ,pci_acpi_init 函数 执行 后 , pci_subsys_init 国 数 将 
执行 pcibios_init 函数 。 pcibios_init—pcibios_resource_survey 函数 将 检查 当前 处 理 器 系统 的 所 
. 和 设备 的 BAR 空间 , 该 函数 并 不 会 操作 PCI 设备 的 BAR 寄存 器 , 而 只 是 检查 当前 处 理 

系统 中 所 有 PCI 设备 的 pci_dev 一 resource 参数 是 否 合法 。 

由 第 14. 3.2 节 所 示 ，pci_scan_slot 函数 己 经 将 pci_dev 一 resource 参数 进行 基本 的 初始 化 
工作 , 但 是 对 于 不 同 的 处 理 器 系统 ,resource 一 start 参数 的 值 并 不 一 定 有 效 。 

pcibios_resource_survey 图 数 在 . /arch/x86/pci/i386.c 文件 中 , 如 源 代码 14-34 所 示 。 

源 代 码 14-34 ”pcibios_resource_survey 函数 


void _init pcibios_resource_survey(void ) 


| 

DBG("PCI: Allocating resources\n’); 

pcibios_allocate_bus_resources(&pci_root_buses ) ; 

pcibios_allocate_resources(0); 

pcibios_allocate_resources( 1 ); 

e820_reserve_resources_late( ) ; 

各。 
* Insert the IO APIC resources after PCI initialization has 
* occured to handle IO APICS that are mapped in on a BAR in 
* PCI space, but before trying to assign unassigned pci res. 
*/ 

ioapic_insert_resources( ) ; 


| 


在 Linux x86 中 , 所 有 PCI 总 线 树 的 根 节点 使 用 一 个 双向 链表 连接 在 一 起 ，pci_root_buses 
指向 这 个 链表 的 起 始 地 址 。pceibios_allocate_bus_resources 图 数 使 用 DFS 算法 检查 并 分 配 PCI 
总 线 树 中 的 所 有 PCI 桥 使 用 的 系统 资源 ， 函 数 的 源 代 码 在 . /arch/x86/pci/i386.c 文件 中 ， 如 
源 代 码 14-35 所 示 。 

源 代码 14-35 pcibios_allocate_bus_resources 函数 


static void _init pcibios_allocate_bus_resources( struct list_head * bus_list) 
| 

struct pci_bus * bus; 

struct pci_dev * dev; 

int idx; 

struct resource *7; 

/* Depth -First Search on bus tree */ 

list_for_each_entry( bus, bus_list, node) | 


OO 如 第 14.1.3 节 所 示 ， pci_legacy_init 函数 在 执行 过 程 中 需要 检查 pcibios_scanned 参数 ， 当 该 参数 为 1 时 ， 该 函数 将 
直接 返回 。 
外 pcibios_irq_init 函数 需要 检查 pcibios_enable_ird 参数 , 如果 该 参数 不 为 NULL, 该 函数 也 将 直接 返回 。 
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这 ((dev=bus ->self)) | 
for (idx =PCL BRIDCE_RESOURCES ; 
idx < PCL_ NUM_RESOURCES; idx ++ ) | 
r= RQdev -> resource[ idx | ; 
i (| r—->flags) 
continue; 
(| r->start || 


pci_claim_resource( dev, idx) < 0) | 


r—>flags=0; 


| 


peibios_allocate_bus_resources( &bus -> children ) ; 


pcibios_allocate_bus_resources 了 水 数 首先 遍历 链表 pei_root_buses 中 的 所 有 pci_bus 结构 ， 
之 后 调用 pci_claim_resource 一 pci_find_parent_resource 因数 对 pci_bus 结构 进行 检查 。pci_find 
_parent_resource 函数 在 . /driver/pei/pei. c 文件 中 , 如 源 代码 14-36 所 示 , 该 函数 成 功 返 回 
时 , 将 获得 当前 PCI 桥 的 上 游 PCI 桥 使 用 的 resource 人 参数。 

源 代 码 14-36 ”pci_find_parent_resource 函数 


Struct resource +* 
pei_find_parent_resource( const struct pci_dev * dev, struct resource * res) 
| 
const struct pci_bus * bus = dev -> bus; 
int i; 
struct resource * best = NULL; 
for(i=0; i < PCI_BUS_NUM_RESOURCES; i++) | 
struct resource * r= bus -> resource[ ij] ; 
fe 
continue; 
if (res ->start && | (res ->start > =r—> start && res ->end < =T->end)) 
continue; A/ * Not contained */ 
i ((res—->flags “r—->flags) & (IORESOURCE_IO | IORESOURCE_MEM)) 
continue; A/ * Wrong type */ 
i (! ((res—>flags “r->flags) & IORESOURCE_PREFETCH ) ) 
return T; /* Exact match */ 
if ((res—>flags & IORESOURCE_PREFETCH) 
&& | (T->flags & IORESOURCE_PREFETCH)) 
best =r; A/ * Approximating prefetchable by non - prefetchable */ 
| 


return best; 
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pci_find_parent_resource 首先 对 PCI 桥 管理 的 地 址 空间 进行 检查 。 如 图 3-2 所 示 , 每 一 
个 PCI 桥 都 管理 一 段 PCI 总 线 地 址 空间 , 而 且 这 段 地 址 空间 必须 隶属 于 上 游 PCI 桥 管理 的 地 
址 空间 , 其 中 PCI 桥 2 管理 的 地 址 空间 隶属 于 PCI 桥 1, 而 PCI 桥 1 管理 的 地 址 空间 隶属 于 
HOST 主 桥 , 而 且 这 些 地 址 空间 的 类 型 需要 一 致 。 

之 后 这 段 代码 检查 上 下 游 PCI 桥 的 预 读 设 置 位 , PCI 总 线 规定 下 游 设备 “不 可 预 读 空 间 ” 
不 能 使 用 PCI 桥 的 “可 预 读 空间 ”; 而 下 游 设 备 “ 可 预 读 空间 ”可 以 使 用 PCI 桥 的 “不 可 预 读 
空间 ”和 “可 预 读 空间 ”, 下 游 设备 的 “可 预 读 空间 ”优先 使 用 PCI 桥 的 “可 预 读 空间 ”。 

当 完 成 这 些 检查 后 pcibios_allocate_bus_resources 一 request_resource 图 数 将 从 上 游 PCI 桥 
管理 的 地 址 空间 中 为 当前 PCI 桥 分 配 地 址 空间 , 如果 该 函数 返回 失败 , 则 将 r 一 flags 参数 置 
0, 标记 资源 没有 被 正确 分 配 , 这 种 情况 可 能 是 因为 BIOS 的 bug, 也 可 能 因为 其 他 原因 。 之 后 
pcibios_allocate_bus_resources 限 数 将 递归 调用 pcibios_allocate_bus_resources 函数 遍历 其 下 游 
的 PCI 总 线 树 。 

我 们 再 次 回 到 peibios_resource_survey 函数 , 发现 该 函数 分 别 使 用 两 个 不 同 的 入 口 参 数 0 
和 1 调用 了 peibios_allocate_resources 了 水 数 。 当 入 口 参数 为 0 时 ,pcibios_allocate_resources 限 
数 为 “在 BIOS 中 已 经 启用 了 PCI 设备 ”优先 分 配 资源 ; 当 入 口 参 数 为 1 时 , 该 函数 为 其 他 
PCI 设备 分 配 资源 。 

该 函数 的 实现 较为 简单 , 其 主要 过 程 依然 是 调用 pci_find_parent_resource 函数 获得 上 游 
PCI 桥 管理 的 资源 , 并 使 用 request_resource 函数 为 当前 PCI 设备 分 配 地 址 空间 。 值 得 注意 的 

， 当 入 口 参数 为 0 时 ， 0 resource_survey 也 数 将 暂时 禁止 PCI 设备 的 ROM 空间, ROM 
空间 的 初始 化 将 在 下 文 介 

pcibios_init Linux 系统 中 的 数据 结构 , 并 没有 对 PCI 设备 的 BAR 寄存 器 进 
行 读 写 操作 。 在 x86 处 理 器 系统 中 ，BIOS 会 枚 举 PCI 总 线 树 , 并 初始 化 PCI 设备 的 BAR 寄 
存 器 ; 但 是 在 其 他 人 处理 器 系统 中 ,Firmware 可 能 并 没有 做 出 这 些 操 作 , 为 此 Linux 系统 将 继续 
遍历 PCI 总 线 树 , 并 初始 化 这 些 PCI 设备 的 BAR 寄存 器 


14.3.4 Linux PCI 分 配 PCI 设备 使 用 的 BAR 寄存 器 


pci_subsys_init 函数 执行 完毕 后 ，Linux PCI 将 调用 peibios_assign_resources 函数 , 设置 
PCI 设备 的 BAR 寄存 器 。 pcibios_assign_resources 因数 首先 处 理 PCI 设备 的 ROM 空间 , 并 进 
行 资源 分 配 , 之 后 调用 pci_assign_unassigned_resources 函数 设置 PCI 设备 的 BAR 寄存 器 。 该 

. /drivers/pci/setup - bus. c 文件 中 ,如 源 代码 14-37 所 示 。 


源 代码 14-37 pci_assign_unassigned_resources 函数 


void _init 
pei_assign_unassigned_resources( void ) 


struct pci_bus * bus; 


/* Depth first, calculate sizes and alignments of all 
subordinate buses. */ 


list_for_each_entry( bus, &pci_root_buses, node) | 
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pei_bus_size_bridges( bus ) ; 
| 
/* Depth last, allocate resources and update the hardware. */ 
list_for_each_entry( bus, &pci_root_buses, node) | 
pci_bus_assign_resources( bus); 
pci_enable_bridges( bus) ; 
| 


/* dump the resource on buses */ 
list_for_each_entry( bus, &pci_root_buses, node) | 


pci_bus_dump_resources( bus ) ; 


该 函数 依次 调用 pci_bus_size_bridges 、pci_bus_assign_resources 和 pci_enable_bridges 郴 
数 , 下 文 将 分 别 讨论 这 些 函 数 。 而 pci_bus_dump_resources 国 数 的 主要 作用 是 将 Linux 系统 分 
配 的 PCI 设备 的 资源 信息 打印 出 来 , 本 节 对 该 函数 不 做 介绍 。 

1. pci_bus_size_bridges 函数 

pci_bus_size_bridges 函数 的 主要 作用 是 修复 和 对 界 当 前 PCI 总 线 树 下 的 所 有 PCI 设备 
(包括 PCI 桥 ) 所 使 用 的 IO 和 存储 器 地 址 空间 。 该 函数 的 实现 如 源 代码 14-38 所 示 。 


源 代码 14-38 ”pci_bus_size_bridges 函数 


void _ref pci_bus_size_bridges( struct pci_bus * bus) 
| 
struct pci_dev * dev; 


unsigned long mask, prefmask; 


list_for_each_entry( dev, &bus -> devices, bus_list) | 


struct pci_bus * b= dev -> subordinate; 


switch (dev -> class >> 8) | 


case PCI_CLASS_BRIDGE_PCI: 

default: 
pci_bus_size_bridges(b); 
break; 


| 
/+* The root bus? */ 
i (| bus ->self) 


return; 


switch (bus -> self ->class >> 8) | 
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case PCL_CLASS_BRIDCE_PCI : 
pci_bridge_check_ranges(bus ) ; 
default: 


pbus_size_io(bus ) ; 


mask = IJORESOURCE_MEM ; 
prefmask = IORESOURCE_MEM | IORESOURCE_PREFETCH:; 
if (pbus_size_mem( bus, prefmask, prefmask) ) 
mask = prefmask; A/ * Success, size non — prefetch only. */ 
pbus_size_mem( bus, mask, IORESOURCE_MEM ) ; 
break; 


| 


这 段 代码 首先 递归 调用 pci_bus_size_bridges 函数 , 直到 找到 当前 PCI 总 线 树 最 底层 的 
PCI 桥 , 然后 调用 pci_bridge_check_ranges 图 数 检 查 这 个 PCI 桥 所 管理 的 地 址 空间 是 否 支 持 1 
0 或 者 可 预 读 的 存储 器 空间 , 如果 支 持 , 则 将 当前 PCI 桥 的 pci_bus 一 self 一 resource 参数 的 相 
应 状态 位 置 1。 这 上段 代码 随后 调用 pbus_size_io 和 pbus_size_mem 水 数 修 复 并 对 界 当 前 PCI 桥 
的 WO 空间 和 存储 需 空 间 , 并 从 低 到 高 逐 层 递归 调用 pci_bus_size_bridges 函数 。 

2.，pci_bus_assign_resources 函数 

pci_bus_assign_resources 国 数 在 . /drivers/pci/setup -bus. ec 文件 中 , 如 源 代 码 14-39 和 源 
代码 14-41 所 示 。 


源 代码 14-39 pci_bus_assign_resources 函数 片段 1 


void _ref pci_bus_assign_resources( const struct pci_bus * bus) 
struct pci_bus *b; 


struct pci_dev * dev; 


pbus_assign_resources_sorted ( bus ) ; 


该 函数 首先 调用 pbus_assign_resources_sorted P 函数 遍历 并 初始 化 当前 PCI 总 线 上 的 所 有 PCI 
设备 的 BAR 寄存 器 , 包括 PCI Agent 设备 和 PCI 桥 , 之 后 递归 调用 自身 遍历 当前 PCI 总 线 的 所 
有 下 游 总 线 , 最 后 调用 pci_setup_bridge 函数 初始 化 PCI 桥 的 存储 器 和 IO Base 、Limit 寄存 器 。 

在 第 14. 3. 2 中 曾经 使 用 pci_scan_bridge 函数 , 将 PCI 桥 的 Primary Bus Number 、Seconda- 
ry Bus Number 和 Subordinate Bus Number 寄存 带 初 始 化 完毕 ,此 时 Linux PCI 可 以 访问 HOST 
主 桥 之 下 的 所 有 PCI 设备 的 配置 空间 , 但 是 不 能 访问 “未 初始 化 的 PCI 设备 ”的 BAR 空间 。 
PCILLPCIe 总 线 规定 使 用 ID 寻 址 方式 访问 配置 空间 ,而 使 用 地 址 寻 址 方式 访问 存储 器 空 间 ， 
因此 处 理 器 虽然 不 能 访问 BAR 空间 , 但 是 依然 能 够 访问 PCI 设备 的 配置 空间 。 

值得 注意 的 是 这 段 代 码 中 的 一 个 细节 问题 。 其 中 pbus_assign_resources_sorted 函数 在 pci 
_bus_assign_resources 国 数 递归 调用 之 前 执行 ， 而 ， pci_setup_bridge 函数 在 递归 调用 之 后 执行 。 
Linux PCI 采用 这 种 方式 , 可 以 保证 PCI 设 备 BAR 寄存 器 初始 化 是 从 上 游 PCI 总 线 到 下 游 PCI 
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总 线 , 而 PCI 桥 Base、Limit 寄存 器 的 初始 化 是 从 下 游 PCI 总 线 到 上 游 PCI 总 线 。 

这 一 细节 对 PCI 设备 的 初始 化 非常 重要 , 因为 PCI 桥 所 管理 的 地 址 空间 是 其 下 所 有 PCI 
设备 使 用 地 址 空间 的 合集 , 因此 PCI 桥 Base 、Limit 寄存 器 的 初始 化 需要 从 下 而 上 进行 。 而 
PCI 设备 的 BAR 寄存 器 的 初始 化 的 方向 并 没有 严格 规定 ，PCI 规范 并 没有 对 此 做 具体 的 要 
求 , 在 实现 中 只 要 保证 系统 软件 在 初始 化 PCI 桥 的 Base 、Limit 寄存 器 之 前 , 其 下 所 有 PCI 设 
备 的 BAR 寄存 器 已 经 完成 初始 化 即 可 。 目 前 Linux 系统 使 用 从 上 游 总 线 到 下 游 总 线 的 方法 
初始 化 PCI 设备 的 BAR 寄存 器 。 

对 于 x86 处 理 器 系统 , PCI 设备 的 BAR 空间 已 经 被 BIOS 初始 化 , 因此 只 要 BIOS 正确 分 
配 了 PCI 设备 的 BAR 寄存 器 ，Linux 系统 不 执行 pci_assign_unassigned_resources 国 数 也 没有 
什么 关系 。 不 过 对 于 一 些 处 理 器 系统 , 其 Firmware 并 没有 完全 枚 举 PCI 总 线 树 上 的 PCI 设 
备 ， 此 时 必须 调用 pci_assign_unassigned_resources 中 的 pci_bus_assign_resources[ 0 | 函数 初始 
化 “未 初始 化 BAR 空间 ”的 PCI 设备 。 

pbus_assign_resources_sorted 函数 负责 分 配 “ 未 初始 化 PCI 设备 的 BAR 寄存 器 ”, 该 函数 
将 对 这 些 PCI 设备 的 BAR 寄存 器 进行 写 操作 。 该 函数 的 实现 如 源 代 码 14-40 所 示 。 


源 代码 14-40 ”pbus_assign_resources_sorted 函数 


static void pbus_assign_resources_sorted( const struct pci_bus * bus) 
struct pci_dev * dev; 
struct resource +* res; 
struct resource_list head, * list, * tmp; 


int idx; 


head. next = NULL; 
list_for_each_entry( dev, &bus -> devices, bus_list) | 
ul6 class = dev -> class >> 8; 


pdev_sort_resources( dev，&head ) ; 


| 


for (list = head. next; list; ) | 

res = list -> res; 

idx =res — &list -> dev -> resource[ 0 ] ; 

if (pei_assign_resource( list -> dev，idx) ) | 
res -> start = 0; 
res -> end =0; 
res -> flags =0; 

| 

tmp = list; 

list = list -> next; 


kfree( tmp) ; 
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这 段 代 码 首先 调用 pdev_sort_resources 函数 , 该 孔 数 的 实现 过 程 较为 简单 , 其 主要 作用 是 
将 “未 初始 化 ”的 PCI 设 备 使 用 的 资源 进行 排序 对 齐 , 然后 加 入 到 head 链表 中 , 随后 调用 pei 
_assign_resource 函数 初始 化 这 些 PCI 设备 的 BAR 寄存 器 。 

pei_assign_resource 函数 在 . /drivers/ peci/ setup-res. c 文件 中 3 该 函数 的 实现 逻辑 较为 简 
单 , 本 节 并 不 列 出 这 段 源 代码 。 该 图 数 两 次 调用 了 pci_bus_alloc_resource 函数 ,第 一 次 试图 
从 上 游 总 线 的 可 预 读 存储 器 空间 为 当前 PCI 设备 分 配 资源 , 第 二 次 从 “不 可 预 读 的 存储 器 空 
间 ” 分 配 资源 。 当 资源 分 配 成 功 后 ，pci_assign_resource 一 pci_update_resource 图 数 将 初始 化 
PCI 设备 的 BAR 寄存 器 , 这 些 代 码 并 不 复杂 , 本 广 将 这 些 代码 留 给 读者 。 


源 代码 14-41 ”pci_bus_assign_resources 函数 片段 2 


list_for_each_entry( dev, &bus -> devices, bus_list) | 
b = dev -> subordinate; 
i (! b) 


continue; 
pci_bus_assign_resources(b ) ; 


switch (dev -> class >> 8) | 

case PCI_CLASS_BRIDGE_PCI: 
pei_setup_bridge(b) ; 
break ; 


case PCI_CLASS_BRIDGE_CARDBUS: 
pei_setup_cardbus(b) ; 
break ; 


default: 
dev_info( &dev -> dev, "not setting up bridge for bus " 
“% 04x:%02x\n”, peci_domain_nr(b), b -> number) ; 
break ; 


| 


再 次 回 到 pci_bus_assign_resources 子 数 , 该 函数 开始 递归 调用 自身 , 寻找 当前 PCI 总 线 
子 树 的 最 后 一 个 PCI 桥 , 之 后 调用 pci_setup_bridge 函数 初始 化 这 个 PCI 桥 的 Base 、Limit 寄 
存 器 。pci_setup_bridge 函数 的 源 代码 在 . /drivers/pci/set-bus. c 文件 中 , 本 节 对 此 不 作 介 绍 。 

当 Linux PCI 执行 pci_setup_bridge 函数 初始 化 当前 PCI 桥 之 后 , 这 个 桥 的 上 游 设备 和 这 
个 桥 管理 的 PCI 设备 的 BAR 寄存 器 已 经 初始 化 完毕 。 因 此 pci_setup_bridge 函数 通过 简单 的 
计算 ， 即 可 得 出 当前 PCI 桥 Base、Limit 寄存 器 的 值 ， 之 后 调用 pci_write_config_dword 画 数 将 
这 个 数据 对 PCI 桥 的 这 些 寄存 需 更 新 即 可 。 

至 此 , PCI 总 线 树 上 的 所 有 PCI 设备 的 BAR 寄存 器 ,以 及 PCI 桥 的 Base 、Limit 寄存 器 全 
部 初始 化 完毕 ,从 硬件 的 角度 来 看 , PCI 总 线 系统 已 经 初始 化 完毕 。 
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3，pci_enable_bridges 函数 

我 们 再 次 回 到 pci_assign_unassigned_resources 图 数 ， 如 源 代 码 14-37 所 示 , 该 函数 将 
调用 pci_enable_bridges 函数 , 使 能 所 有 PCI 桥 设备 。pci_enable_bridges 图 数 的 实现 如 源 代 
码 14-42 所 示 。 


源 代 码 14-42 ”pci_enable_bridges 函数 


void pci_enable_bridges(struct pci_bus * bus) 
| 
struct pci_dev * dev; 


int retval; 


list_for_each_entry( dev, &bus -> devices, bus_list) | 
if (dev -> subordinate) | 
if (| pei_is_enabled( dev)) | 
retval = pci_enable_device( dev); 
pci_set_master( dev ) ; 


| 


pci_enable_bridges( dev -> subordinate ) ; 


| 


该 孔 数 的 实现 较为 简单 , 分别 调 用 peci_enable_device 、pci_set_master 函数 启动 当前 PCI 
桥 , 之 后 递归 调用 pci_enable_bridges 函数 启动 当前 PCI 桥 下 游 的 PCI 桥 。 至 此 Linux PCI 完 
成 对 当前 PCI 总 线 树 的 主要 初始 化 工作 。 


14.4 Linux PowerPC 如 何 初 始 化 PCI 总 线 树 


Linux PowerPC 初始 化 PCI 总 线 树 的 步骤 与 Linux x86 类 似 , 也 调用 了 一 些 Linux 系统 中 
与 PCI 总 线 相关 的 通用 函数 。 但 是 PowerPC 处 理 器 使 用 的 HOST 主 桥 与 x86 处 理 器 并 不 相 
同 , 因此 Linux PowerPC 初始 化 PCI 总 线 树 的 过 程 与 Linux x86 有 些 差别 。 本 节 以 MPC8572 处 
理 央 为 例 说 明 Linux PowerPC 初始 化 PCI 总 线 树 的 过 程 。 

MPC8572 处 理 吉 共有 三 个 PCIe 总 线 控制 铝 ,， 其 中 每 一 个 总 线 控 制 带 都 可 以 管理 一 个 独 
立 的 PCI 总 线 树 。 在 每 一 个 总 线 控制 器 中 都 包含 一 组 独立 的 寄存 器 ，MPC8572 处 理 咒 可 以 通 
过 设置 mbound 和 Outbound 寄存 器 , 访问 对 应 PCI 总 线 树 上 所 有 PCI 设备 的 配置 空间 。 这 组 
寄存 器 与 MPC8548 处 理 器 提供 的 对 应 寄存 器 较为 类 似 , 详 见 第 2.2 节 。 

Linux PowerPC 在 引入 了 Open Firmware 机 制 2 后， 使 用 dts 文件 管理 PCI 总 线 控制 器 。 
MPC8572 处 理 需 系统 使 用 的 dts 文件 为 . /arch/powerpc/boot/ dts/mpc8572ds. dts 文件 , 其 中 与 
PCI 总 线 控制 部 相关 的 部 分 如 源 代 码 14-43 所 示 。 


外 该 机 制 由 Sun Microsystems 引入 , 广泛 应 用 于 Sun、Apple、IBM 和 Freescale 的 非 x86 处 理 器 系统 中 。 
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源 代 码 14-43 MPC8572 处 理 器 系统 使 用 的 dts 文件 


pci0: pcie@ ffe08000 | 
compatible = "fsl, mpc8548 - pcie”; 
device_type = “pci ; 
#interrupt ~ cells = <1 >; 
#size ~ cells = <2 >; 
#address -cells = <3 > ; 
reg = <0 Oxffe08000 0 0x1000 > ; 
bus -range= <0 255 > ; 
ranges = <0x2000000 0x0 0x80000000 0 0x80000000 0x0 0x20000000 
0x1000000 0x0 0x00000000 0 0xffc00000 0x0 0x00010000 > ; 


pcil : pcie@ ffe09000 | 
compatible = "fsl, mpc8548 — pcie”; 
device_type = “pci ; 
#interrupt ~ cells = <1 >; 
#size ~ cells = <2 >; 
#address -cells = <3 > ; 
reg = <0 0xffe09000 0 0x1000 > ; 
bus -range= <0 255 > ; 
ranges = <0x2000000 0x0 0xa0000000 0 0xa0000000 0x0 0x20000000 
0x1000000 0x0 0x00000000 0 Oxffc10000 0x0 0x00010000 > ; 


| 
pci2: pcie@ ffe0a000 | 
compatible = "fsl, mpc8548 - pcie”; 
device_type = "pei”; 
#interrupt ~ cells = <1 >; 
#size ~ cells = <2 >; 
#address -cells = <3 > ; 
reg = <0 Oxffe0a000 0 Ox1000 > ; 
bus -range= <0 255 > ; 
ranges = <0x2000000 0x0 0xc0000000 0 0xc0000000 0x0 0x20000000 
0x1000000 0x0 0x00000000 0 0xffc20000 0x0 0x00010000 > ; 


| 


以 上 代码 分 别 描述 了 MPC8572 处 理 融 系统 的 3 个 PCIe 控制 器 ,其 使 用 的 寄存 器 空间 为 
0xFFE08000 ~ OxFFEO8FFFF、 OxFFE09000 ~ OxFFEO9FFFF 和 OxFFEOAO00 ~ OxFFEOAFFFF, 
这 三 个 PCle 控制 器 分 别管 理 3 棵 PCI 总 线 树 ,其 PCI 总 线 的 编号 都 为 0 ~255, 在 这 个 dts 文 
件 中 还 包含 了 PCIe 控制 器 的 其 他 信息 , 本 节 并 不 关心 这 些 内 容 。 

Linux PowerPC 在 调用 setup_arch 一 mpc8Sxx_cds_setup_arch 水 数 时 , 分 别 初始 化 这 三 
PCIe 控制 融 , 该 函数 的 实现 如 源 代码 14-44 所 示 。 
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源 代码 14-44 mpc85xx_cds_setup_arch 函数 


static void _init mpc85xx_cds_setup_arch( void ) 


| 
#ifdef CONFIG_PCI 

struct device_node * np; 
#endif 


#ifdef CONFIG_PCI 
for_each node_by_type(np, "pei”) | 
if (of_device_is_compatible( np, "fsl, mpc8540 ~ pci”) || 
of_device_is_compatible( np, “fsl, mpc8548 — pcie”) ) | 
struct resource rsrc; 
of_address_to_resource( np, 0, &rsrc); 
if ( (rsrc. start & Oxfffff) == 0x8000 ) 
fsl_add_bridge( np, 1); 
else 


fsl_add_bridge( np, 0); 


| 


ppc_md. pci_irq_fixup = mpc85Sxx_cds_pci_irq_fixup; 
ppc_md. pci_exclude_device = mpc85xx_exclude_device; 
#endif 
| 


mpc85xx_cds_setup_arch 困 数 分 析 mpc8572ds. dts 文件 ， 并 将 “pci0” 作 为 主 PCI 总 线 控 
制 器 , 并 调用 fsl_add_bridge (np, 1) 函数 进行 初始 化 操作 ,“pcil” 和 “pci2” 作 为 从 PCI 总 线 
控制 器 调用 fsl_add_bridge( np, 0) 函数 进行 初始 化 操作 。 在 MPC8572 处 理 器 中 , 主 PCI 总 线 
控制 恬 需 要 处 理 ISA 总 线 使 用 的 存储 器 和 IO 地 址 空间 。 

fsl_add_bridge 图 数 在 . /arch/powerpc/sysdev/fsl_pci.c 文件 中 ,该 函数 的 实现 如 源 代码 
14-45 ~26 所 示 。Linux PowerPC 使 用 pci_controller 结构 描述 HOST 主 桥 , 包括 这 个 主 桥 管理 
的 PCI 总 线 域 地 址 范围 、PCI 总 线 号 和 访问 配置 寄存 器 的 方法 等 一 系列 信息 ,pci_controller 结 
构 在 . /arch/powerpc/include/asm/pci-bridge. h 文件 中 。 


源 代码 14-45 fsl_add_bridge 函数 片段 1 


int _init fsl_add_bridge( struct device_node * dev, int is_primary) 
int len; 
struct pci_controller * hose; 
struct resource Tsrc ; 


const int * bus_range; 


/* Fetch host bridge registers address */ 
if (of_address_to_resource( dev, 0, &rsrc) ) | 


414 


printk( KERN_WARNING "Can't get pci register base!’”); 
return — ENOMEM; 


ppc_pci_add_flags( PPC_PCI_REASSIGN_ALL_ BUS); 
hose = pcibios_alloc_controller( dev) ; 
让 (! hose) 

return — ENOMEM; 


hose -> first_busno = bus_range ? bus_range[0] : 0x0; 


hose -> last_busno = bus_range ? bus_range[ 1 | : Oxff; 


setup_indirect_pci( hose, rsrc. start, rsrc. start + Ox4, 


PPC_INDIRECT_TYPE_BIC_ENDIAN ) ; 


这 段 代码 首先 分 析 mpc8572ds. dts 文件 ,然后 获得 PCIe 主 桥 管理 的 PCI 总 线 范围 ,对 于 
pci0 控制 器 ，bus_range[0] 为 0, 而 bus_range[1] 为 255。 之 后 为 当前 PCIe 主 桥 使 用 的 hose 
结构 分 配 空间 ,并 初始 化 其 first_busno 和 last_busno 参数 。 

setup_indirect_pci 国 数 设置 在 Linux PowerPC 中 间接 访问 PCI 设备 配置 空间 的 函数 ,如 第 
2.2 节 所 示 , 在 PowerPC 处 理 器 中 , 访问 PCI 设备 配置 空间 有 两 种 方式 , 一 种 是 使 用 间接 访问 方 
式 , 一 种 是 使 用 ECAM 方式 。 与 x86 处 理 需 略 有 不 同 , PowerPC 处 理 器 使 用 间接 访问 方式 也 可 
以 访问 PCle 设备 的 扩展 配置 空间 , 因此 ECAM 方式 对 于 PowerPC 处 理 器 而 言 , 并 不 是 必须 的 。 

源 代 码 14-46 ”fsl_add_bridge 函数 片段 2 


/* Interpret the "ranges” property */ 
/* This also maps the /0O region and sets isa_io/mem base */ 


pei_process_bridge_OF _ranges( hose, dev, is_primary); 


/* Setup PEX window registers */ 


setup_pci_atmu( hose, &rsrc); 


return 0 ; 


| 


pci_process_bridge_OF_ranges 了 水 数 分 析 mpc8572ds. dts 文件 的 “ranges” 字 段 , 在 dts 文件 
中 ，ranges 字段 的 解释 如 下 。 


ranges = <0x2000000 0x0 0x80000000 0 0x80000000 0x0 0x20000000 
0x1000000 0x0 Ox00000000 0 Oxffc00000 0x0 0x00010000 > ; 


ranges 字段 共 由 14 个 双 字 组 成 , 每 7 个 双 字 为 1 组 , 每 一 组 描述 一 段 PCI 总 线 域 地 址 空 
间 与 存储 器 域 地 址 空间 的 对 应 关系 。 

。 每 一 组 的 第 一 个 双 字 代表 pci_space, 为 0x200-0000 表示 这 段 PCI 总 线 地 址 空间 为 存储 

器 地 址 空间 , 为 0x100-0000 表示 这 上段 PCI 总 线 地 址 空间 为 /0 地 址 空间 。 
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e 每 一 组 的 第 2 ~3 个 双 字 存放 pci_address， 即 PCI 域 地 址 空间 。 

e 每 一 组 的 第 4 ~5 个 双 字 存放 cpu_address， 即 存储 咒 域 地 址 空间 。 

e 每 一 组 的 第 6 ~7 个 双 字 存放 size， 即 这 段 地 址 空间 的 大 小 。 

pci_process_bridge_OF_ranges 函数 的 主要 作用 就 是 根据 dts 文件 中 的 ranges 字段 , 初始 化 
hose 结构 的 对 应 参数 , 本 节 对 该 函数 不 做 进一步 介绍 。 

setup_pci_atmu 限 数 首先 设置 MPC8572 处 理 融 中 的 Outbound 和 Inbound 寄存 器 组 ,这 两 
组 寄存 器 的 描述 见 第 2. 2 节 。 然 后 设置 PEXCSRBAR 寄存 器 。 

如 果 MPC8572 处 理 器 作为 RC?, 而 且 支 持 MSI 中 断 机 制 时 ， 需 要 设置 PCle 主 桥 的 
BARO 寄存 器 ， 即 PEXCSRBAR ( PCI Express Base Address Register ) 寄存 需 。 在 PCI 规范 中 ， 
MSI 中 断 机 制 以 存储 器 写 的 方式 实现 ， 当 这 个 MSI 存储 器 写 最 终 到 达 RC 时 , 需要 能 够 被 RC 
接收 。 在 PowerPC 处 理 右 中 ,MSI 存储 器 写 的 目的 地 址 为 MSIR 寄存 融 在 PCI 总 线 域 的 物理 
地 址 。 此 时 PowerPC 处 理 絮 可 以 采用 两 种 方式 接收 这 个 MSI 存储 紫 写 , 一 种 是 设置 mbound 
寄存 器 , 映射 MSIIR 寄存 器 所 在 的 PCI 总 线 空间 , 另 一 种 是 设置 RC 的 BAR0 寄存 器 。Linux 
PowerPC 使 用 了 后 一 种 方式 。 

Linux PowerPC 执行 完毕 setup_arch 函数 后 ,还 会 执行 一 些 和 PCI 总 线 初 始 化 相关 的 也 
数 , 如 下 所 示 。 


c053e04c t _initcall_pcibus_class_init2 

c053e050 t _initcall_pci_driver_init2 

c053e088 t _initcall_pcibios_init4 

c053e0ac t _initcall_pci_slot_init4 

c053e28c t _initcall_pci_init6 

c053e290 +t _initcall_pci_proc_init6 

c053e3ec t _initcall_pci_resource_alignment_sysfs_init7 


c053e3f0 t _initcall_pcei_sysfs_init7 


这 些 函 数 在 第 14.3 节 中 都 有 介绍 , 虽然 Linux PowerPC 执行 这 些 函 数 的 过 程 与 Linux x86 
略 有 不 同 , 但 大 体 类 似 , 本 章 对 此 不 做 进一步 说 明 。 


14.5 小 结 


本 章 使 用 了 一 定 的 篇 幅 介 绍 Linux PCI 的 实现 过 程 。Linux PCI 中 的 源 代码 对 于 读者 理解 
PCI 体系 结构 有 较 大 的 帮助 , 但 希望 读者 不 要 拘泥 于 此 。Linux PCI 只 是 PCI 软件 体系 结构 的 
一 种 实现 方式 , 这 种 实现 并 不 是 最 合理 的 。 

Linux PCI 子 系统 在 其 发 展 过 程 中 , 遇 到 了 各 种 各 样 的 问题 与 Bug, 这 些 代 码 经 历 了 了 一遍 
又 一 遍 的 修改 。 这 种 修改 有 如 向 一 个 满 是 补丁 的 衣服 上 继续 打 补丁 ,最 后 已 无 法 识别 衣服 的 
原本 模样 。 同 许多 通用 代码 类 似 ，Linux PCI 需要 兼容 各 类 处 理 器 系统 , 目前 的 实现 远 非 完 
美 , 而 这 些 不 完美 将 继续 。 


G@ MPC8572 的 PCle 总 线 控制 器 可 以 作为 RC, 也 可 以 作为 EP。 
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第 15 章 ”Linux PCI 的 中 断 处 理 


Linux PCI 的 中 断 处 理 包含 两 部 分 内 容 ， 一 部 分 是 PCI 设备 使 用 INTx 信号 ， 包 括 PCIe 设 
备 使 用 INTx 消息 ， 向 处 理 器 提交 的 中 断 请 求 ， 这 种 中 断 请 求 方式 也 被 称 为 PCI 设备 的 传统 
中 断 请 求 ; 而 另 一 部 分 是 处 理 MSIAMSI-X 中 断 机 制 。 

Linux PCI 在 处 理 传统 中 断 请 求 时 ， 需 要 考虑 PCI 总 线 的 中 断路 由 。 本 章 将 首先 介绍 PCI 
总 线 的 中 断路 由 ， 并 在 第 15. 2 节 介 绍 MSI 和 MSLX 中 断 机 制 ， 而 不 再 详细 介绍 PCI 设备 的 
传统 中 断 请 求 。 


15. 1 PCI 总 线 的 中 断路 由 


在 多 数 x86 处 理 器 系统 中 ，PCI 设备 的 INTA ~ D# 四 个 中 断 请 求 信 号 与 LPC 接口 提供 的 
外 部 引 脚 PIRQA ~ D# 相 连 ， 之 后 PIRQA ~ D# 与 IO APIC 的 中 断 请 求 信号 IRQ_PIN16 ~ 19# 
相连 。 如 果 PCIe 设备 没有 使 用 MSI 中 断 请 求 机 制 ， 而 是 使 用 了 Legacy INTx 方式 模拟 INTA 
~D# 信 号 时 ， 这 些 Assert INTx 和 Deassert INTx 消息 也 由 Chipset 人 处理， 并 由 Chipset 将 这 些 
消息 转换 为 一 根 硬件 引 脚 ， 然 后 将 这 个 硬件 引 脚 与 IO APIC 的 中 断 输入 引 脚 相连 。 其 连接 
关系 如 图 15-1 所 示 。1I/O APIC 最 终 使 用 REDIR_TBL 表 ， 将 来 自 输 入 引 脚 的 中 断 请 求 发 送 
至 Local APIC， 并 由 CPU 进一步 处 理 这 个 中 断 请 求 。 


APIC Message 


IO APIC 
/ 


一 一 一 


另 
Ee) 
二 
之 
个 
过 | 过 | 二 | 下 
SS 下 有 
| 区 | 受 | 过 
82|8|2 
S|I8|S|g 
名 | 有 |m | 
另 en 昌 | 全 
© ag | ea a 
所 与 | 与 | 与 | 与 
条 >1w|l Olo 
PCI 设 备 PCIe 设 备 


图 1$-1 IO APIC 如 何 处 理 PCI 设备 的 中 断 请 求 


”I/O APIC 将 这 种 方式 称 为 PCI Message。PCle 设备 可 以 通过 INTx 中 断 消息 报 文 ， 向 WO APIC 提交 中 断 请 求 ， 详 
见 第 6.3.4 节 。 
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本 书 并 不 关心 IO APIC 如 何 使 用 APIC Message 将 中 断 消 息 传递 给 Local APIC， 而 重点 
关注 PCI 和 PCIe 设备 使 用 的 中 断 信 号 与 IO APIC 输入 引 脚 IRQ_PIN16 ~ 19 的 连接 关系 。 如 
图 15-1 所 示 ，LPC 的 PIRQA ~ D# 分 别 与 IRQ_PIN16 ~ 19 对 应 ， 但 是 PCI 设备 的 INTA ~ D# 
与 PIROA ~ D# 的 连接 关系 并 不 是 唯一 的 ， 图 15-1 所 示 的 PCI 设备 与 中 断 控制 器 连接 方法 只 
是 其 中 一 种 连接 方法 。 

而 无 论 硬 件 采用 何 种 连接 结构 ， 系 统 软件 都 需要 能 够 正确 识别 是 哪个 PCI 设备 发 出 的 中 

断 请 求 ， 为 此 系统 软件 使 用 PCI 中 断路 由 表 (PCI Interrupt Routing Table) 记录 PCI 设备 使 
用 的 INTA ~ D# 与 VO APIC 中 断 输 入 引 脚 IRQ16 ~ 19 的 对 应 关系 。 
如 果 在 x86 处 理 器 系统 中 存在 Switch， 而 这 个 Switch 的 每 一 个 端口 都 相当 于 一 个 虚拟 
PCI 桥 ， 此 时 该 Switch 的 下 游 端 口 连接 的 PCIe 设备 ， 在 使 用 PCI Message INTx 消息 提交 中 断 
请 求 时 ， 虚 拟 PCI 桥 可 能 将 其 转换 为 其 他 PCI Message INTx 消息 。 在 虚拟 PCI 桥 中 ，Primary 
总 线 和 Secondary 总 线 PCI Message INTx 消息 的 对 应 关系 如 表 15-1 所 示 。 


表 15-1 虚拟 PCI 桥 Primary 总 线 与 Secondary 总 线 间 INTx 消息 间 的 映射 关系 


荆 


设备 号 PCI 桥 Secondary 总 线 的 虚拟 中 断 信号 INTx# | PCI 桥 Primary 总 线 的 虚拟 中 断 信 号 INTx# 
INTA# INTA# 
INTB# INTB# 
0, 4, 8, 12, 16, 20, 24, 28 
INTC# INTC# 
INTD# INTD# 
INTA# INTB# 
INTB# INTC# 
1, 5,9, 13, 17, 21, 25, 29 
INTC# INTD# 
INTD# INTA# 
INTA# INTC# 
INTB# INTD# 
2, 6, 10, 14, 18, 22, 26, 30 
INTC# INTA# 
INTD# INTB# 
INTA# INTD# 
INTB# INTA# 
3,7,11,15, 19, 23, 27, 31 
INTC# INTB# 
INTD# INTC# 


PCIe 设备 发 送 的 PCI Message INTx 消息 首先 到 达 虚 拟 PCI 桥 的 Secondary 总 线 ， 之 后 虚 
拟 PCI 桥 根据 PCIe 设备 的 设备 号 将 这 些 PCI Message INTx 消息 转换 为 Primary 总 线 合 适 的 虚 
拟 中 断 信 号 。 如 设备 号 为 1 的 PCIe 设备 使 用 PCI Message INTA 消息 进行 中 断 请 求 时 ， 该 消 
息 在 通过 虚拟 PCI 桥 后 ， 将 被 转换 为 PCI Message INTB 消息 ， 然 后 继续 传递 该 消息 报 文 ， 最 
终 PCI Message INTx 消息 将 到 达 RC， 并 由 RC 将 该 消息 报 文 转换 为 虚拟 中 断 信 号 INTx， 并 
与 IO APIC 的 中 断 请 求 引 脚 IRQ_PIN16 ~ 19 相连 。 

然而 直接 使 用 PCIe 总 线 提供 的 标准 方法 会 带 来 一 些 问题 。 因 为 一 条 PCIe 链 路 只 能 挂 接 

418 


一 个 EE， 这 个 EP 的 设备 号 通常 为 0， 而 这 些 设 备 使 用 的 虚拟 中 断 信号 多 为 INTA#， 因 此 这 
些 PCle 设备 通过 Switch 的 虚拟 PCI-to-PCI 桥 进行 中 断路 由 后 ， 将 使 用 虚拟 中 断 信 和 号 INTA#， 
并 与 IO APIC 的 IRQ_PIN16 引 脚 相 连 ， 并 不 会 使 用 其 他 IRQ_PIN 引 脚 ， 这 造成 了 IRQ_ 
PIN16 的 负载 过 重 。 其 连接 拓扑 结构 如 图 15-2 所 示 。 


ICH IOxAPIC ICH IOxAPIC 
16 17 18 


‘THILOZMSLNI 


TILOZMSLNI 
#OLNI 


TILOZMSLNI 


#VLNI 
#SLNI 


0 
[ 


C 


PCI-to-PCI Bridge 


国 
图 15-2 PCI Message 中 断路 由 

如 上 图 所 示 ，PCIle 设备 使 用 的 INTx 中 断 请 求 都 最 终 使 用 ILO APIC 的 IRQ_PIN16 引 脚 ， 
从 而 造成 了 这 个 引 脚 所 申请 的 中 断 过 于 密集 ， 因 此 采用 这 种 中 断路 由 方法 并 不 合理 。 为 此 
Intel 在 5000 系列 的 Chipset 中 使 用 了 Interrupt Swizzling 技术 将 这 些 来 自 PCIe 设备 的 中 断 请 求 
平均 分 配 到 IO APIC 的 IRQ_PIN16 ~ 19 引 脚 中 。 
在 图 15-2 中 ，Chipset 设置 了 一 个 INTSWZCTRL 寄存 器 ， 通 过 这 些 寄存 器 可 以 将 PCIe 
设备 提交 的 中 断 请 求 均 衡 地 发 送 至 LO APIC 中 。 如 果 一 个 EP 对 应 的 INTSWZCTRL 位 为 0， 
则 该 设备 的 INTA# 尾 与 IRQ_PIN16 相连 ; 如果 为 1， 将 与 IRQ_PIN17 相连 ， 并 以 此 类 推 ， 最 
终 实现 中 断 请 求 的 负载 均衡 。 

在 一 个 x86 处 理 器 系统 中 ，PCI 设备 或 者 PCle 设备 使 用 的 中 断 信 和 号 INTA ~ D# 与 I/O A- 
PIC 的 IRQ_PIN16 ~19 之 间 的 对 应 关系 并 不 明确 ， 各 个 厂商 完全 可 以 按照 需要 定制 其 映射 关 
系 。 这 为 系统 软件 的 设计 制造 了 不 小 的 困难 。 为 此 BIOS 为 系统 软件 提供 了 一 个 PCI 中 断路 
由 表 ， 存 放 这 个 映射 关系 ，ACPI 规范 将 这 个 中 断路 由 表 存 放 在 DSDT 中 。 

值得 注意 的 是 ， 每 一 个 HOST 主 桥 和 每 一 条 PCI 总 线 都 含有 一 个 中 断路 由 表 。 在 讲述 
PCI 中 断路 由 表 之 前 ， 我 们 简要 回顾 Linux 系统 如 何 为 PCI 设备 分 配 中 断 向 量 。 


15.1.1 PCI 设备 如 何 获取 irq 号 


在 Linux 系统 中 ，PCI 设备 使 用 的 irq 号 存放 在 pdev 一 irq 参数 中 ， 该 参数 在 Linux 设备 
驱动 程序 进行 初始 化 时 ， 由 pci_enable_device 函数 设置 。 本 书 在 第 12.3. 2 节 曾 简要 介绍 过 
这 个 函数 ， 下 文 进 一 步 说 明 如 何 使 用 该 函数 设置 PCI 设备 的 irq 号 。pci_enable_device 函数 
将 依次 调用 _pci_enable_device_flags 一 do_pci_enable_device 一 pcibios_enable_device 函数 设置 
PCI 设备 使 用 的 irq 号 。 

pcibios_enable_device 函数 将 调用 pcibios_enable_irq 函数 ， 设 置 PCI 设备 使 用 的 irq 号 。 
如 果 处 理 器 系统 使 能 了 ACPI 机 制 ，pcibios_enable_irq 函数 将 被 赋值 为 acpi_pci_irq_enable。 
acpi_pci_irq_enable 因数 在 . /drivers/acpi/pci_irq. e 文件 中 ， 其 实现 过 程 如 源 代 人 码 15-1 所 示 。 
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#VLNI 
#VLNI 


[~ 


源 代 码 15-1 ”acpi_pci_irq_enable 函数 


int acpi_pci_irq_enable( struct pci_dev * dev) 
| 

struct acpi_prt_entry * entry; 

int gsi; 

ug8 pin; 

int triggering =ACPL LEVEL_SENSITIVE:; 

int polarity = ACPI_ACTIVE_LOW; 

char * link = NULL; 

char link_desc| 16 ] ; 


int re; 


pin = dev — > pin; 
if (! pin) | 
ACPI_DEBUG_PRINT( ( ACPI_DB_INFO, 
"No interrupt pin configured for device % s\n”, 
pci_name( dev) ) ) ; 


return 0 ; 


entry = acpi_pci_irq_lookup( dev, pin); 
让 (! entry) | 
有 
* IDE legacy mode controller IRQs are magic. Why do compat 


* extensions always make such a nasty mess. 


3 
i (dev— >class > > 8 = = PCI_CLASS STORAGE_IDE && 
(dev— >class & 0x05) = = 0) 
return 0 ; 
| 
if (entry) | 


if (entry — >link) 
gsi = acpi_pci_link_allocate_irq( entry - > link, 
entry — > index， 
Qtriggering, &polarity, 
&link ) ; 
else 
gsi = entry - > index; 
| else 


ERIEE | 
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if(gsi<0) | 
dev_warn( &dev — > dev, "PCI INT %¢e: no GSI”, pin_name( pin) ) ; 
/* Interrupt Line values above OxF are forbidden */ 
if (dev— >irqg > 0 && (dev— >irqg < = OxF)) | 
printk(” — using IRQ % d\n’”, dev — >irq); 
acpi_register_gsi( &dev - > dev, dev — > irq, 
ACPI LEVEL_SENSITIVE, 
ACPI_ACTIVE_LOW); 
return 0 ; 
| else | 
printk(”\n”); 


return 0 ; 


rc =acpi_register_gsi( &dev - > dev，gsi，triggering，polarity ) ; 
if (re <0) | 
dev_warn( &dev — > dev, PCI INT %c: failed to register GSI\n’”, 
pin_name( pin) ) ; 
return rc ; 


| 


dev - >irq=rc; 


return 0 ; 


该 函数 首先 调用 acpi_pci_irq_lookup 一 acpi_pci_irq_find_prt_entry 困 数 ， 从 acpi_prt_list 
链表 中 获得 一 个 acpi_prt_entry 结构 的 Entry。 在 acpi_prt_list 链表 中 存放 PCI 总 线 的 中 断路 由 
表 ， 本 章 将 在 第 15. 1. 2 市 进一步 介绍 该 表 。 在 这 个 Entry 中 ， 存 放 PCI 设备 使 用 的 Segment、 
Bus 、Device 和 Function 号 ，PCI 设备 使 用 的 中 断 请 求 信 号 (INTA# ~INTD#) 和 GSI (Global 
System Interrupt) 号 。 

这 上段 程序 在 获得 Entry 后 ， 将 判断 Entry 一 link 是 否 为 空 ， 如 果 为 空 ， 表 示 当 前 x86 人 处理 
器 系统 使 用 IO APIC 管理 外 部 中 断 ， 而 不 是 使 用 8259A。 在 Intel 的 ICH9 中 集成 了 两 个 中 
断 控制 器 ， 一 个 是 8259A， 另 一 个 是 IO APIC。Linux x86 通过 软件 配置 ， 决 定 究 竟 使 用 哪 
个 中 断 控制 器 ， 在 绝 大 多 数 情况 下 ，Linux x86 使 用 IO APIC 而 不 是 8259A 管理 外 部 中 断 请 
求 200。 本 章 不 再 关心 8259A 中 断 控 制 器 ， 因 此 也 不 再 关心 Entry 一 link 不 为 空 的 处 理 
情况 ? 。 

这 上段 程序 在 获得 GSI 号 之 后 ， 将 调用 acpi_register_gsi 国 数 ， 将 GSI 号 转换 为 系统 软件 使 


加 Linux IA 在 引导 时 可 以 加 入 “noapie” 参 数 关闭 IO APIC， 此 时 处 理 器 系统 将 使 用 8259A 中 断 控制 器 。 
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用 的 irq 号 。acpi_register_gsi 函数 使 用 三 个 人 口 参数 ， 分 别 为 GSI 号 ， 中 断 触发 方式 和 采用 
电 平 触发 时 的 极 性 。 其 中 PCI 设备 使 用 低 电 平 触发 方式 。 

acpi_register_gsi 函数 执行 完毕 后 ， 将 为 PCI 设备 分 配 一 个 irq 号 ， 这 个 irq 号 是 系统 软件 
使 用 的 ， 之 后 PCI 设备 的 驱动 程序 可 以 使 用 request_irq 函数 将 中 断 服 务 例 程 与 irq 号 建立 映 
射 关 系 ; 该 函数 还 将 设置 IO APIC 的 REDIR_TBL 表 ， 将 GSI 号 与 REDIR_TBL 表 中 的 中 断 
向 量 建立 对 应 关系 ， 同 时 初始 化 与 操作 系统 相关 的 irq 结构 2 。 为 了 深入 理解 acpi_register_ 
gsi 函数 ， 读 者 需要 理解 CSI 号 、1/O APIC 的 REDIR_ TBL 表 、IRQ_PIN 引 脚 和 Linux 使 用 
的 irq 号 之 间 的 对 应 关系 。 

GSI 号 是 ACPI 规范 引入 的 ， 用 于 记录 IO APIC 的 IRQ_PIN 引 脚 号 的 参数 。 如 果 x86 处 
理 需 系统 使 用 IO APIC 管理 外 部 中 断 请 求 ， 而 且 在 这 个 处 理 器 系统 中 具有 多 个 IO APIC 控 
制 器 ,那么 GSI 号 与 VO APIC 中 断 引 脚 号 的 对 应 关系 如 图 15-1 所 示 。 


GSI 号 IO APIC 的 中 断 引 脚 System Vector Base 
0 IRQ_PINO 0 
24 Pin IO APIC 
SG 
> 
思 
Q 
23 IRQ_PIN23 23 
16PinJOAPIC 24 |_| IRQ PINO 24 
口 
> 
巴 
3 
39 IRQ_PIN15 39 
24 Pin IO APIC 40 IRQ_PINO 40 
GS 
> 
思 
A 
ULD 
SS IRQ_PIN23 55 


图 15-3 GSI 和 IO APIC 中 断 引 脚 号 的 对 应 关系 


假设 在 一 个 x86 处 理 器 系统 中 存在 3 个 IO APIC， 其 中 有 两 个 IO APIC 的 外 部 中 断 引 
脚 数 为 24 根 ， 另 外 一 个 LO APIC 的 外 部 中 断 引 脚 数 为 16 根 。 其 中 GSI 号 的 0 ~23 与 IO 
APIC1 的 IRQ_PINO ~ 23 对 应 ; GSI 号 的 24 ~39 与 0 APIC2 的 IRQ_PINO ~15 对 应 ; 而 GSI 
号 的 40 ~55 与 IO APIC3 的 IRQ_PINO ~23 对 应 。ACPI 规范 为 统一 起 见 使 用 GSI 号 描述 外 
部 设备 与 IO APIC 中 断 引 脚 的 连接 关系 。 

LO APIC 的 IRQ_PIN 引 脚 与 外 部 设备 的 中 断 请 求 引 脚 相 连 ， 如 IO APIC1 的 IRQ_ 
PIN16 与 某 个 PCI 设备 的 INTA# 相 连 。 值 得 注意 的 是 ，PCI 设备 的 INTA# 信 号 首先 与 LPC 的 
PIRQA# 信 号 相连 ， 而 PIRQA# 信 号 再 与 IO APIC1 的 IRQ_PIN16 相连 。 其 中 IO APIC 集成 


”在 Linux 系统 中 ,该 结构 为 irq_desc， 该 结构 记录 与 irq 号 相关 的 信号。 
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在 ICH 中 ， 因 此 这 些 IRQ_PIN 引 脚 并 没有 从 ICH 中 引出 。 

REDIR_TBL 表 中 存放 对 IRQ_PIN 引 脚 的 描述 ,一 个 IO APIC 具有 多 少 个 IRQ_PIN 引 
脚 ，REDIR_TBL 表 就 由 多 少 项 组 成 。 该 表 的 每 一 个 Entry 由 多 个 字段 组 成 ， 其 中 本 节 仅 对 这 
个 Entry 的 Vector 字段 感 兴趣 ，Vector 字段 是 这 个 Entry 的 第 7 ~0 位 ， 存 放 对 应 IRQ_PIN 引 
脚 使 用 的 中 断 向 量 。 

在 Linux 系统 中 ， 与 IRQ_PIN 引 脚 对 应 的 中 断 向 量 由 acpi_register_gsi 函数 设置 ， 当 x86 
处 理 需 系统 使 用 IO APIC 管理 外 部 中 断 时 ，acpi_register_gsi 函数 将 调用 mp_register_gsi 男 
数 。mp_register_gsi 函数 在 . /drivers/acpi/boot. c 文件 中 定义 ， 其 实现 机 制 如 源 代 码 15-2 所 
示 。 我 们 假定 在 Linux 系统 中 使 能 了 CONFIG_X86_32 选项 。 


源 代 码 15-2 mp_register_gsi 函数 


int mp_register_gsi( struct device * dev, u32 gsi, int trigger, int polarity ) 
int i0apic; 


int 10apic_pin; 


ioapic = mp_find_ioapic( gsi) ; 
if (ioapic < 0) | 
printk( KERN_WARNING "No IOAPIC for GSI %u\n’”, gsi); 


return gsi; 


ioapic_pin = mp_ find_ioapic_pin( ioapic, gsi); 


#ifdef CONFIG_X86_32 
if (ioapic_renumber_irq) 
gs1 = i0oapic_renumber_irq( ioapic, gsi); 
#endif 


if (ioapic_pin > MP_MAX IOAPIC_PIN) | 
printk( KERN_ERR "Invalid reference to IOAPIC pin ” 
"qd — Wd\n”, mp._ioapics|[ ioapic |. apicid, 
ioapic_pin ) ; 


return gsi; 


if (enable_update_mptable) 
mp_config_acpi_gsi( dev, gsi, trigger, polarity); 


set_i0_apic_irq_attr( &irq_attr, ioapic, ioapic_pin, 
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trigger = = ACPL_ EDCE_SENSITIVE ?0 :1 
polarity = = ACPI_ACTIVE_HIGH ?0 : 1); 


i0o_apic_set_pci_routing( dev, gsi, &irq_attr); 


return gsi; 


| 


这 段 程 序 首先 根据 GSI 号 ,使 用 mp_find_ioapic 和 mp_find_ioapic_pin 国 数 ， 确 定 当 前 
PCI 设备 与 IO APIC 中 断 控制 器 的 哪个 IRQ_PIN 引 脚 相连 (GSI 号 与 IO APIC 和 IRQ_PIN 
引 脚 的 对 应 关系 如 图 15-1 所 示 ) 。 

然后 mp_register_gsi 国 数 调用 io_apic_set_pci_routing 国 数 设置 IO APIC 中 的 寄存 需 。 在 
Linux x86 的 源 代码 中 ，mp_register_gsi 函数 调用 io_apic_set_pci_routing 函数 时 ， 0 
恰当 的 处 理 ， 在 mp_register_gsi 函数 中 使 用 GSI 号 作为 io_apic_set_pci Sn 函数 的 第 二 
和信 口 参数 ， 但 是 io_apic_set_pci_routing 函数 要 求 的 这 个 输入 参数 是 irq 号 。 

在 Linux x86 系统 中 ，irq 号 号 是 一 个 纯 软 件 ? 概念 ， 而 这 段 代 码 的 作用 实际 上 是 令 GSI 号 
直接 等 于 irq 号 。 笔 者 认为 这 种 方法 并 不 十 分 恰当 ， 因 为 GSI 号 用 来 描述 WO APIC 的 IRQ_ 
PIN 输入 引 脚 ， 而 irq 号 是 设备 驱动 程序 用 来 挂 接 中 断 服务 例 程 的 。 

本 节 在 此 强调 这 个 问题 ， 主 要 为 了 读者 辨 明 GSI 号 和 irgq 号 的 关系 ， 目 前 在 Linux x86 系 
统 中 ，PCI 设备 使 用 的 GSI 号 与 irq 号 采用 了 “直接 相等 "的 一 一 映射 关系 ， 实 际 上 ，GSI 
号 并 不 等 同 于 irq 号 。 在 系统 软件 的 实现 中 ， 两 者 只 要 建立 一 一 映射 的 对 应 关系 即 可 ， 并 不 
一 定 要 “直接 相等 "。 还 有 一 点 需要 提醒 读者 注意 ， 就 是 不 同 的 PCI 设备 可 4 共享 同一 个 
GSI 号 ， 即 共享 IO APIC 的 一 个 IRQ_PIN 引 脚 ， 从 而 在 Linux 系统 中 共享 同一 个 irq 号 

i0_apic_set_pci_routing 归 | 函数 调用 _ io apic_set_pci a nh 操作 IO 
APIC 中 的 寄存 器 。setup_IO_APIC_ird 是 一 个 重要 函数 ， 如 源 代 码 15-3 所 示 。 


源 代 码 15-3 setup_IO_APIC _irq 函数 


static void setup_IO_APIC_irq( int apic_id, int pin, unsigned int irq, 


struct irq_desc * desc, int trigger, int polarity) 


struct irq_cfg * cfg; 
struct IO_APIC_route_entry entry; 


unsigned int dest; 
cfg = desc - > chip_data; 
if (assign_irq_vector( irq, cfg, TARGET_CPUS)) 


return; 


if (setup_ioapic_entry( mp_ioapics|[ apic_id |. apicid, irq, &entry, 


”如 果 Linux x86 并 没有 使 用 8825A 作为 中 断 控制 器 ，irp 号 和 中 断 向 量 并 没有 直接 的 对 应 关系 。 
”如 果 在 一 个 处 理 器 系统 中 ，irp 号 大 于 16， 那 么 ip 号 等 于 CSI 号 。 
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dest, trigger, polarity, cfg - > vector，pin) ) | 
printk ("Failed to setup ioapic entry for ioapic %d, pin % d\n”, 
mp_ioapics| apic_id |. apicid, pin); 
_ clear irq_vector(irq, cfg); 


return; 


ioapic_register_intr(irq, desc, trigger); 
if (irq < NR_IRQS_ LEGACY) 
disable 8259A_irq(ird) ; 


ioapic_write_entry( apic_id, pin, entry); 


| 


函数 首先 调用 assign_irq_vector 一 _assign_irq_vector 函数 将 外 部 设备 使 用 的 GSI 号 与 I 

O APIC REDIR_TBL 表 建 立 联系 ， 并 将 其 结果 记录 到 CPU 的 vector_irq 这 个 步骤 非 
常 重要 5 在 Linux x86 系统 中 3 如 果 存 在 多 个 CPU ， 那 么 每 一 个 CPU 都 有 一 个 vector_irq 表 ， 
这 张 表 中 包含 了 vector 号 与 irq 号 的 对 应 关系 。 es 的 
桥梁 。 

处 理 絮 人 硬件 并 不 知道 irq 号 的 存在 ， 而 仅仅 知道 vector 号 ， 而 Linux x86 系统 使 用 的 是 
irq 号。 在 处 理 外 部 中 断 请 求 时 ，Linux 系统 需要 通过 vector_irq 表 将 vector 号 转换 为 irq 号 才 
能 通过 irq_desc 表 找到 相关 设备 的 中 断 服务 例 程 。 

setup_ioapic_entry 函数 将 初始 化 entry 参数 。 该 参数 是 一 个 IJ0_APIC_route_entry 类 型 的 
结构 。 而 ioapic_register_intr 因数 调用 set_irq_chip_and_handler_name 困 数 设置 irq_desc[ ird ] 
变量 并 将 这 个 变量 的 chip 参数 设置 为 ioapic_chip, handle_irq 参数 设置 为 handle_fasteoi_irq, 
这 个 步骤 对 于 Linux x86 中 断 处 理 系 统 非常 重要 。 

J write_entry 函数 将 保存 在 entry 参数 中 的 数据 写 入 到 与 GSI 号 对 应 的 REDIR_TBL 
表 中 ， 该 函数 将 直接 操作 LO APIC 的 寄存 器 

由 。 我 们 可 以 发 现 当 acpi_pci_irq_enable 函数 执行 完毕 后 ，Linux 系统 将 GSI 号 
与 irq 号 建立 映射 关系 ， 同 时 又 将 irq 号 与 IO APIC 中 的 vector 号 进行 映射 ,并 将 这 个 映射 
关系 记录 到 vector_irq 表 中 ， 这 个 映射 表 由 操作 系统 使 用 。 之 后 该 程序 还 将 初始 化 I/O APIC 
的 REDIR_TBL 表 ， 将 PCI 设备 使 用 的 GSI 号 与 [LO APIC 的 vector 号 联系 在 一 起 。 

在 x86 处 理 器 系统 中 ，PCI 设备 的 INTx 引 脚 首先 与 LPC 的 PIRQA ~ H 引 脚 直 接 相连 ， 
而 LPC 中 的 PIRQA ~ H 引 脚 将 与 IO APIC 的 IRQ_PIN16 ~ 23 引 脚 相连 。 当 PCI 设备 通过 
INTx 引 脚 提交 中 断 请 求 时 ， 最 终 将 传递 到 IRQ_PIN16 ~23 引 脚 。 而 YO APIC 接收 到 这 个 中 
断 请 求 后 ， 将 根据 REDIR_TBL 表 与 “IRQ_PIN16 ~23 引 脚 ”对 应 的 Entry 向 Local APIC 发 送 
中 上 请 求 消息 息 ， 处 理 器 通过 Local APIC 收 到 这 个 中 断 请 求 后 ， 将 执行 中 断 处 理 程序 进一步 处 
理 这 个 来 自 PCI 设备 的 中 断 请 求 。 

Linux x86 系统 使 用 do_IRQ 函数 处 理 外 部 中 断 请 求 ， 该 函数 在 . /arch/x86/kernel/irq. ec 
文件 中 ， 如 源 代码 15-4 所 示 。 
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源 代 码 15-4 do_IRQ 函数 


unsigned int _ irq_entry do_IRQ( struct pt_regs * regs) 
| 


struct pt_regs * old_regs = set_irq_regs(regs) ; 


/* high bit used in ret from_ code */ 
unsigned vector = ~regs — > orig_ax; 


unsigned irq; 


exit_idle( ) ; 


irq_enter( ) ; 


irq =_ get_cpu_var( vector_irq) [ vector] ; 


if (| handle_ irq(irq, regs)) | 
ack_APIC_irq( ); 


if (printk_ratelimit( ) ) 
pr_emerg( "% s: %d. Wd No irq handler for vector (irq % d) \n”, 


func__, smp_processor id( ), vector, irq); 


irq_exit( ); 


set_irq_regs( old_regs); 
return 1; 


| 


do_IRQ 函数 首先 获得 veetor 号 ， 这 个 vector 号 由 IO APIC 传递 给 Local APIC， 并 与 某 
个 IRQ_PIN 引 脚 对 应 ， 其 描述 在 IO APIC 的 REDIR_TBL 表 中 。vector 号 是 一 个 硬件 概念 ， 
x86 处 理 器 系统 在 处 理 外 部 中 断 请 求 时 ， 仅 仅 知道 vector 号 的 存在 ， 而 不 知道 irq 号 。 

Linux x86 系统 通过 vector_irq 表 将 vector 号 转换 为 irq 号 ; 之 后 执行 handle_irq 函数 进 
一 步 处理 这 个 中 断 请 求 。 对 于 PCI 设备 ， 这 个 handle_irq 函数 将 调用 handle_fasteoi_irq 函数 
而 handle_fasteoi_irq 函数 将 最 终 执行 PCI 设备 使 用 的 中 断 服 务 例 程 。handle_fasteoi_irq 函数 
的 源 代码 在 . /kernel/irq/chip. c 文件 中 ， 本 节 对 该 函数 不 做 进一步 分 析 。 

在 PCI 设备 的 Linux 驱动 程序 中 ， 将 使 用 request_irq 函数 将 其 中 断 服务 例 程 挂 接 到 系统 
中 断 服 务 处 理 程序 中 。 


15.1.2 PCI 中 声 路 由 表 


上 节 简 要 介绍 了 PCI 设备 如 何 获 取 中 断 向 量 。 由 上 文 所 述 ，PCI 设备 在 获取 中 断 向 量 之 
前 需要 从 acpi_prt_list 链表 获得 GSI 号 ， 在 acpi_prt_list 链表 中 存放 PCI 总 线 的 中 断路 由 表 ， 
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而 这 个 中 断路 由 表 中 存放 PCI 设备 所 使 用 的 GSI 号 。 

这 个 PCI 中 断路 由 表 由 BIOS 提供 ， 如 果 x86 处 理 器 系统 支持 ACPI 机 制 ， 这 个 中 断路 由 
表 存 在 于 DSDT. dsl 文件 中 ， 如 源 代码 15-5 所 示 。ACPI 规范 使 用 ASL 语言 描述 PCI 中 断路 
由 表 。 


源 代码 15-5 DSDT 表 中 的 PCI 中 断路 由 表 


Device (PCI0 ) 
| 


Method (_PRT, 0, NotSerialized) 
| 
If (LEqual (GPIC, Zero)) 
| 
Package (Ox04) 10x0001FFFF, Ox00, \_SB. PCIO. LPC. LNKA, 0x00}, 
Package (Ox04) 10x0001FFFF, Ox01, \_SB. PCIO. LPC. LNKB ,0x00 | ， 
Package (Ox04) 10x0001FFFF, 0x02, \_SB. PCIO. LPC. LNKC ,0x00 | ， 
Package (Ox04) 10x0001FFFF, Ox03, \_SB. PCIO. LPC. LNKD, 0x00}, 


Else 
Return (Package (0x47) | 
Package (0x04 ) 

Package (0x04 ) 


Package (0x04 ) 
Package (0x04 ) 


| OxO01CFFFF, Zero, Zero, Oxl1 | ， 
| OxO001CFFFF, One, Zero, Ox10 | ， 
| OxO01CFFFF, 0x02, Zero, 0x12 | ， 
| OxO01CFFFF, Ox03, Zero, Ox13 |， 
Package (Ox04) | Ox001DFFFF, Zero, Zero, Ox17 | ， 
Package (Ox04) | Ox001DFFFF, One, Zero, Ox13 | ， 
Package (Ox04) | OxO01DFFFF, 0x02, Zero, 0x12 | ， 
Package (Ox04) | Ox001DFFFF, Ox03, Zero, Ox10 | ， 


| 


在 以 上 源 代 码 中 ，_PRT 存放 x86 处 理 器 系统 PCI 总 线 0 的 中 断路 由 表 ， 在 x86 处 理 器 
体系 结构 中 ， 每 一 条 PCI 总 线 都 有 一 个 中 断路 由 表 ， 因 此 在 DSDT 中 ， 将 存在 多 个 中 断路 由 
表 。 在 以 上 源 代码 中 ， 我 们 仅 列 出 PCI 总 线 0 使 用 的 中 断路 由 表 ， 即 RC 使 用 的 中 断路 由 
表 ， 在 一 个 处 理 器 系统 中 还 可 能 有 其 他 中 断路 由 表 ， 如 PCIe 桥 使 用 的 中 断路 由 表 等 。 

在 以 上 源 代 码 中 ， 首 先 判断 GPIC 是 否 为 0， 如 果 为 0 表示 当前 x86 处 理 器 系统 使 用 PIC 
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模式 ， 即 使 用 8259A 中 断 控制 器 管理 外 部 中 断 ， 在 第 15. 1. 3 节 将 介绍 这 种 情况 ; 如 果 为 1 
表示 当前 x86 处 理 器 系统 使 用 LO APIC 管理 外 部 中 断 ， 此 时 “Package (0x04)”?204 中 含 
有 四 个 参数 ， 这 四 个 参数 的 定义 如 表 15-1 所 示 。 
表 15-2 PCI 中 断路 由 表 使 用 的 参数 

述 


设备 地 址 ， 其 中 高 两 个 字 节 表 示 PCI 设备 的 Device 号 ， 低 两 个 字 节 表示 PCI 设备 的 
Address DWORD 二 
Function 号 ， 如 果 低 两 字 节 为 0xFFFF 表示 全 部 Function 号 
Pin Byte 其 中 0 ~3 分 别 与 INTA ~ D# 引 脚 # 对 应 
a 该 字段 为 0 表示 使 用 GSI 号 描述 PCI 设备 使 用 的 中 断 资源 ， 否 则 该 字段 存放 该 设备 
ame 上 at 
Source 与 LPC 的 哪个 PIRQ 引 脚 ， 如 LPC 的 PIRQA 信号 连接 ， 在 第 15. 1.3 节 将 讲述 LPC 的 
或 者 Byte a 
PIRQ 引 脚 的 描述 
Source Index DWORD Source 字段 为 0 时 ， 该 字段 存放 PCI 设备 使 用 的 GSI 号 


通过 以 上 描述 ， 发 现 “Package (0x04 ) |0x0001FFFF，0x00,\_SB. PCIO. LPC. LNKA， 
0x0012” 的 含义 为 ，PCI 总 线 0 的 某 个 设备 ， 其 Device 号 为 0x01， 而 且 这 个 设备 的 INTA# 
引 脚 与 LPC 的 PIRQA 相连 ，INTB#3| 脚 与 PIRQB 相连 ，INTC# 引 脚 与 PIRQC 相连 ， 而 INTD 
# 引 脚 与 PIRQD 相连 。 

而 “Package (0x04) | OxO01CFFFF, Zero, Zero, Oxll 19... ”这 段 代 码 的 含义 为 ，PCI 
总 线 0 的 某 个 PCI 设备 ， 其 Device 号 为 0x1C， 而 且 这 个 设备 的 INTA# 引 脚 使 用 的 GSI 号 为 
0x11; 这 个 PCI 设备 的 INTB#3 引 脚 使 用 的 GSI 号 为 0x10; 这 个 PCI 设备 的 INTC# 使 用 的 GSI 
号 为 0x12， 这 个 PCI 设 备 的 INTD#3| 脚 使 用 的 GSI 号 为 0x13 。 

Linux x86 系统 进行 初始 化 时 ， 将 _PRT 表 加 载 到 acpi_prt_list 链表 中 ， 操 作 系 统 首 先 执 
行 acpi_pci_root_init 基数， 之 后 调用 acpi_device_probe 一 acpi_bus_driver_init 一 acpi_pci_root_ 
add 国 数 。acpi_pci_root_add 因数 将 调用 acpi_pci_irq_add_prt 一 acpi_pci_irq_add_entry 困 数 将 
_PRT 表 中 的 中 断路 由 表 的 每 一 个 Entry 加 载 到 acpi_prt_list 链表 。 
通过 上 文 的 分 析 ， 可 以 发 现在 每 一 个 PCI 桥 中 ,包括 Switch 的 虚拟 PCI 桥 中 都 有 一 个 中 
断路 由 表 ， 因 此 acpi_pci_root_add 还 会 调用 acpi_pci_bridge_scan 函数 分 析 并 加 载 每 一 个 PCI 
桥 的 中 断路 由 表 。 对 Linux x86 系统 初始 化 PCI 中 断路 由 表 感 兴趣 的 读者 可 以 自行 分 析 这 上 段 
代码 ， 本 节 对 此 不 做 进一步 介绍 。 

在 Linux x86 系统 中 ，PCI 设备 在 获取 irq 号 时 ， 将 从 这 个 链表 中 获得 GSI 号 ， 从 而 最 终 
获得 irq 号 ， 具 体 过 程 见 第 15. 1. 1 节 。 


15.1.3 ”PCI 插 模 使 用 的 irq 号 


在 x86 处 理 器 系统 中 ， 还 有 一 类 特殊 的 PCI 设备 ， 即 PCI 持 模 。PCI 持 槽 无 法 确定 其 上 
的 PCI 设备 如 何 使 用 INTA# ~ INTD# 信 号 ， 因 此 必须 处 理 全 部 中 断 请 求 引 脚 ， 而 在 其 上 的 


”对 应 Else 之 后 的 这 段 代码 。 
锯 使 用 8859A 中 断 控制 器 的 情况 。 
全 ”使 用 APIC 中 断 控制 器 的 情况 。 
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PCI 设备 有 选择 地 使 用 这 些 信和 号 。 

PCI 搬 权 使 用 的 中 断 请 求 信号 将 与 LPC 的 PEROA ~F 相连 ， 如 果 处 理 器 系统 使 能 了 LO 
APIC，LPC 的 这 些 中 断 请 求 引 脚 将 与 IRQ_PIN16 ~ 23 相连 ， 否 则 中 断 控 制 器 8259A 将 管理 
这 些 中 断 引 脚 。 在 ACPI 表 中 含有 对 这 些 PCI 插 槽 中 断 请 求 信 号 的 描述 ， 这 些 描 述 主要 针对 
处 理 右 系统 没有 使 用 IO APIC 的 处 理 情况 ， 如 源 代 码 15-6 所 示 。 


源 代 码 15-6 ”PCI 插 模 使 用 中 断 请 求 信号 


Device (LPC) 
| 


Device (LNKA) 
| 
Name (_HID, Eisald ("PNPOCOF”)) 
Name (_UID, 0x01) 
Method (_STA, 0, NotSerialized) 
| 
If (And (PIRA, Ox80)) 


| 
Return (Ox09) 


Return (Ox0B) 


| 
Method (_DIS, 0, NotSerialized) 
| 
Or (PIRA, 0x80, PIRA) 
| 
Method (_CRS, 0, NotSerialized) 
| 
Name (BUFO, ResourceTemplate () 
| 
IRQ (Level, ActiveLow, Shared, _Y02) 
10| 
得 ) 
CreateWordField ( BUFO, \_SB. PCI0. LPC. LNKA. _CRS. _Y02. _INT, IRQW) 
If (And (PIRA, 0x80)) 
| 
Store (Zero, Local0) 


Else 
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Store (One, Local0) } 
ShiftLeft ( Local0, And (PIRA, 0x0F), IROW) 
Return ( BUFO) 
| 
Name (_PRS, ResourceTemplate () 
| 
IRQ (Level, ActiveLow, Shared, ) 
13,4,5,7,9,10,11,12| 
2) 
Method (_SRS, 1, NotSerialized) 
| 
CreateWordField (Are0, 0x01, IRQW) 
FindSetRightBit (IRQW ，Local0 ) 
If (LNotEqual (IRQW ，Zero) ) 
| 
And (Local0, Ox7F, Local0) 


Decrement ( Local0 ) 


Or (Local0 ，0x80 ，Local0 ) 


Store (Local0, PIRA) 


| 


在 ACPI 规范 中 ，PCI 插 模 的 中 断 请 求 信 号 的 标识 符 “PNP0COF”。 在 这 段 源 代码 中 LN- 
KA 与 LPC 的 PIRQA 引 脚 对 应 ， 这 段 代 码 的 作用 是 描述 LPC 的 PIRQA 引 脚 。 在 ICH 中 ,使 
用 PIRQA_ROUT 寄存 器 描述 PIRQA 引 脚 。 在 以 上 这 段 源 程序 中 ,“_STA”、“_DIS”、 
“_CRS”、“_PRS” 和 “_SRS” 可 以 操作 PIRQA_ROUT 寄存 器 ， 具 体 含义 如 下 所 示 。 

_STA 用 来 测试 当前 PIRQA 引 脚 的 状态 ， 这 段 代 码 判 断 PIRQA_ROUT 寄存 器 的 第 7 位 是 
否 为 1， 如 果 为 1 表示 当前 PIRQ 引 脚 并 没有 与 8259A 相连 ， 此 时 IO APIC 将 管理 该 引 脚 ， 
_STA 将 返回 0x09 表示 PIRQA 没有 与 8259A 相连 ; 否则 返回 0x0B， 表 示 PIRQA 与 8259A 相 
连 。_STA 的 返回 值 在 ACPI 规范 中 具有 明确 的 定义 。 

_DIS 用 来 关闭 PIRQA 引 脚 与 8259A 的 联系 ， 即 使 用 IAO APIC 管理 该 引 脚 。_DIS 的 作 
用 是 将 PIRQA_ROUT 寄存 器 的 第 7 位 置 1。 

_CRS 用 来 获得 当前 资源 的 描述 ， 对 于 PIRQA 引 脚 而 言 ， 这 上段 描述 表示 PIRQA 引 脚 使 
用 “ 低 电 平 有 效 的 共享 中 断 请 求 ”"， 随 后 通过 PIRO[ A]_ROUT 寄存 器 的 最 高 位 判断 ， 该 中 
断 信号 是 由 8259A 中 断 探 制 句 还 是 APIC 中 断 控制 器 接管 ， 最 后 将 IRQW 根据 PIRQ[ A]_ 
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ROUT 寄存 器 的 IRQ Routing 字段 赋值 ，IRQ Routing 字段 可 以 使 用 的 资源 在 13, 4, 5, 7, 9， 
10, 11, 12} 集合 中 。 

_PRS 描述 PCI 插 模 的 中 断 请 求 信号 可 能 使 用 的 中 断 资源 ， 对 于 PIRQA 而 言 ， 可 能 使 用 
的 irq 号 为 13,4, 5,7,9, 10, 11, 12|。 这 些 irq 号 由 x86 处 理 需 系统 规定 ， 这 些 irq 号 与 
ISA 总 线 兼容 ， 如 果 一 个 系统 使 用 了 IAO APIC， 这 些 规定 将 不 再 有 效 。 

在 Linux 系统 中 ，acpi_pci_link_init 函数 处 理 PCI 插 醒 的 中 断 请 求 ， 该 函数 在 . /drivers/ 
acpi/pci_link. e 文件 中 ， 其 实现 如 源 代码 15-7 所 示 。 


源 代 码 15-7 acpi_pci_link_init 函数 


static int __init acpi_pci_link_init( void ) 


| 


if (acpi_bus_register_driver( &acpi_pci_link_driver) < 0) 
return 一 ENODEYV ; 


return 0 ; 


subsys_initcall( acpi_pci_link_init ) ; 


acpi_pci_link_init 函数 调用 acpi_bus_register_driver 一 . . . 一 acpi_pci_link_add 涵 数 将 LPC 
的 PIRQA ~H 引 脚 与 irq 号 对 应 在 一 起 。acpi_pci_link_add 函数 的 执行 过 程 较为 简单 ， 首 先 
该 孔 数 调用 acpi_pci_link_get_possible 函数 ， 运 行 _ PRS 代码 获得 13, 4, 5, 7, 9, 10, 11， 
12} 这 个 集合 ; 之 后 调用 acpi_pci_link_get_current 函数 ， 运 行 . CRS 代码 并 从 13, 4,5,7， 
9, 10, 11, 12} 集合 中 获得 irq 号 。acpi_pci_link_init 函数 执行 完毕 后 ，Linux 系统 将 显示 以 
下 信息 。 


ACPI: PCI Interrupt Link [LNKA] (IRQs 3457910 *11 12) 
ACPI: PCI Interrupt Link [LNKB] (IRQs 34579 *101112) 
ACPI: PCI Interrupt Link [LNKC] (IRQs 3457910 *11 12) 
ACPI: PCI Interrupt Link [LNKD] (IRQs 3457910 *11 12) 
ACPI: PCI Interrupt Link [LNKE] (IRQs 3457 *9101112) 
ACPI: PCI Interrupt Link [LNKF] (IRQs 34579 *10 11 12) 
ACPI: PCI Interrupt Link [LNKG] (IRQs 3457 *9 1011 12) 
ACPI: PCI Interrupt Link [LNKH] (IRQs 3457910 *11 12) 


其 中 LNKA 使 用 IRQ11，LNKB 使 用 IRQ10， 并 以 此 类 推 。 如 果 一 个 处 理 器 系统 使 能 
1/O APIC ，acpi_pci_link_init 函数 的 执行 结果 并 不 重要 ， 因 为 PCI 设备 在 执行 pci_enable_de- 
vice 函数 后 ， 该 设备 使 用 的 ird 号 ， 还 将 发 生变 化 。 

目前 Linux x86 系统 在 大 多 数 情况 下 ， 都 会 使 能 IO APIC， 在 这 种 情况 下 ， 即 便 不 执行 
acpi_pci_link_add 函数 对 系统 也 没有 什么 影响 ， 也 正 是 基于 这 个 考虑 ， 本 市 对 acpi_pci_link_ 
init 函数 并 不 做 深入 研究 。 
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15.2 使 用 MSIAMSIX 中 断 机 制 申请 中 断 向 量 


上 文 讲述 了 ACPI 如 何 为 PCI 设备 或 者 “使 用 INTx Emulation 方式 ”的 PCIe 设备 分 配 中 
断 向 量 。 本 节 讲 述 PCIe 设备 使 用 MSLMSIX 中 断 机 制 时 ，Linux 系统 如 何 分 配 中 断 向 量 。 对 
于 PCI 设 备 ，MSLLMSIX 中 断 机 制 是 可 选 的 ,但 是 PCle 设备 必须 支持 MSI 或 者 MSI-X 中 断 
机 制 ， 或 者 同时 支持 这 两 种 中 断 机 制 。 


15.2.1 Linux 如 何 使 能 MSI 中 断 机 制 


如 果 PCIL/PCIe 设备 需要 使 用 MSI 中 断 机 制 ， 将 调用 pci_enable_msi 函数 ， 在 Linux 
2. 6. 31 内 核 中 ，pci_enable_msi 图 数 使 用 pci_enable_msi_block( pdev, 1) 实现。pci_enable_ 
msi_block 限 数 在 . /drivers/pciA/msi. e 文件 中 ， 如 源 代 码 15-8 所 示 。pci_enable_msi_block 也 
es 其 中 dev 参数 存放 PCIe 设备 的 pci_dev 结构 ， 而 nvec 参数 为 申请 的 
irq 也 号 个 个 数 。 

该 函数 返回 值 为 时 ， 表 示 成 功 返 回 ， 此 时 该 函数 将 更 新 pci_dev 一 ird 参数 ， 此 时 在 
Linux 设备 驱动 程序 中 ， 可 以 使 用 的 irq 号 在 pci_dev 一 irq ~ pci_dev 一 irq + nvec -1 之 间 ; 当 
函数 返回 值 为 负数 时 ， 表 示 出 现 错误 ; 而 为 正 数 时 ， 表 示 pci_enable_msi_block 国 数 没有 成 
功 返 回 ， 返 回 值 为 该 PCle 设备 MSI Cabalibities 结构 的 Multiple Message Capable 字段 。 


源 代 码 15-8 pci_enable_msi_block 函数 


int pci_enable_msi_block( struct pei_dev * dev, unsigned int nvec) 
int status, pos, maxvec; 


ul6 msgctl; 


pos = pei_find_capability( dev, PCI_CAP_ID_MSI); 
Te 

return — EINVAL; 
pci_read_config word( dev, pos + PCI_MSI_FLAGS, &msgctl); 
maxvec =] < < ((msgctl & PCI_MSI_FLAGS QMASK) > > 1); 
if (nvec > maxvec) 


return maxvec; 


status = peci_msi_check_device( dev, nvec, PCI_CAP_ID_MSI); 
if (status) 


return status; 


WARN_ON(!! dev- >msi_enabled); 


/* Check whether driver already requested MSI —X irqs */ 
if (dev— >msix_enabled) | 
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dev_info( &dev - > dev, "can't enable MSI 
"( MSI -X already enabled) \n’”); 
return — EINVAL; 


status = msi_capability_init( dev, nvec); 


return status; 


这 段 代码 首先 检查 PCI 设备 是 否 文 持 MSI 中 断 机 制 ， 如 果 不 支持 将 直接 退出 该 函数 。 否 
则 检查 nvec 参数 和 Multiple Message Capable 字段 的 大 小 ， 如 果 nvec 的 值 较 大 时 ， 该 函数 直 
接 使 用 Multiple Message Capable 字段 返回 。 

如 果 pci_enable_msi_block 也 数 通 过 了 这 些 检查 ， 将 调用 pci_msi_check_device 困 数 ， 检 
查 Linux 系统 是 否 能 够 使 能 PCI 设备 的 MSI 中 断 机 制 。 这 个 检查 包含 两 方面 内 容 ， 一 方面 是 
纯 软 件 层面 的 ， 包 括 检查 全 局 变量 pci_msi_enable .pci_dev 一 no_msi 参数 等 ; 一 方面 是 人 硬件 
层面 的 检测 ， 包 括 当 前 PCI 设备 的 上 游 PCI 桥 是 否 支 持 MSI 报 文 的 转发 ，PCI 设备 是 否 具有 
Capabilities 链表 ， 是 否 具 有 MSI Capability 结构 。 完 成 这 些 检查 后 ，pci_enable_msi 将 进一步 
调用 msi_capability_init 函数 ， 完 成 与 MSI 中 断 相 关 的 设置 ，msi_capability_init 函数 的 实现 如 
源 代码 15-9 ~10 所 示 。 


源 代码 15-9 msi_capability_init 函数 片段 1 


static int msi_capability_init( struct pci_dev * dev, int nvec) 
struct msi_desc * entry; 
int pos, ret; 
ul6 control; 


unsigned mask; 


pos = pei_find_capability( dev, PCI_CAP_ID_MSI); 
msi_set_enable( dev, pos, 0) ;/ * Disable MSI during set up */ 


pei_read_config word( dev, msi_control_reg( pos), &control); 
/* MSI Entry Initialization */ 
entry = alloc_msi_entry( dev ) ; 
if (| entry) 
return — ENOMEM; 


entry - > msi_attrib. is_msix =0; 


entry - > msi_attrib. is_64 = is_64bit_address( control ) ; 


entry - > msi_attrib. entry_nr =0; 


entry - > msi_attrib. maskbit = is_mask_bit_support( control ) ; 
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msi_capability_init 


口 参数 ， 仅 能 获得 一 个 irq 


机 制 。 


要 对 MSI Capability 乡 
这 段 程序 随后 读 取 MSI Capabilty 结构 的 Message Control 字段 ， 


la 
量 中 ， 


entry - > msi_attrib. default_irq = dev — >irq;/ * Save IOAPIC IRQ */ 


entry — > msi_attrib. pos = pos; 


entry - > mask_pos =msi_mask_reg( pos, entry - > msi_attrib. is_64); 


/* All MSIs are unmasked by default, Mask them all */ 
if (entry — > msi_attrib. maskbit) 


pcei_read_config dword( dev, entry - > mask_pos, &entry - > masked ) ; 


mask = msi_capable_mask(control ) ; 


msi_mask_irq( entry, mask, mask); 


list_add_tail( &entry - >list, &dev — >msi list) ; 


函数 具有 两 个 人 口 参数 ， 在 Linux 2. 6. 30 内 核 中 ， 
号 。msi_capability_init 函数 参考 了 msix ee init 


函数 具有 一 个 人 
函数 的 实现 


这 段 代 码 置 PCI 设备 的 MSI Capability 结构 的 Enable 位 为 0，msi_capability_init 函数 需 


在 control 变量 中 存放 PCle 设备 使 用 的 MSI Capability 乡 


MSI Capability 结构 可 以 使 用 4 种 格式 。 


最 后 这 段 程序 调用 alloc_msi_entry 国 数 分 配 一 个 msi_desc 
始 化 后 ， 加 入 到 pci_dev 一 msi_list 链表 中 。 


机 制 的 详细 信息 。 
源 代 码 15-10 msi_capability_init 函数 片段 2 
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/* Configure MSI capability structure */ 
ret =arch_setup_msi_irqs( dev, nvec, PCI_CAP_ID_MSI); 
if (ret) | 

msi_mask_irq( entry, mask, ~ mask); 

msi_free_irqs( dev) ; 


return ret ; 


/* Set MSI enabled bits */ 
pei_intx_for_msi( dev, 0); 
msi_set_enable( dev, pos, 1); 


dev— >msi_enabled =1; 


dev— >irq =entry — > irq; 


return 0; 


吉 构 进行 读 写 操作 ， 因 此 需要 暂时 禁止 当前 设备 使 用 MSI 中 斯 机 制 。 
并 暂时 保存 在 control 变 


吉 构 的 格式 ， 如 图 10-1 所 示 ， 


这 上段 代码 继续 调用 arch_setup_msi_irqs 函数 设置 MSI Capability 结构 的 其 他 字段 ， 


结构 的 entry 参数 ， 并 将 其 初 
在 entry 参数 中 存放 该 PCI 设备 使 用 的 MSI 中 断 


并 设置 


entry 结构 的 irq 参数 ，arch_setup_msi_irqs 函数 的 实现 与 体系 结构 相关 ， 下 文 将 分 别 介绍 x86 
和 PowerPC 处 理 器 的 实现 方式 。 

然后 这 段 代 码 调用 pei_intx_for_msi 函数 ， 关 闭 PCI 设备 配置 空间 Command 寄存 器 的 In- 
terrupt Disable 位 ， 因 为 该 PCI 设备 将 使 用 MSI 中 断 机 制 ， 而 不 是 传统 的 INTx 中 断 机 制 ， 并 
调用 msi_set_enable 函数 使 能 MSI Capability 结构 的 Enable 位 ; 最 后 对 pci_dev 一 msi_enabled 
位 置 1， 并 将 pci_dev 一 irq 参数 赋值 。 

1. Linux x86 

Linux x86 使 用 的 arch_setup_msi_irqs 了 消 数 在 . /arch/x86/kernel/apic/io_apic.c 文件 中 ， 
其 实现 如 源 代 码 15-1 所 示 ， 本 节 并 不 关心 intr_remapping_enabled 参数 为 1 的 情况 ， 该 参数 
与 IOMMU 机 制 的 IRQ Remapping 相关 。 


源 代码 15-11 Linux x86 使 用 的 arch_setup_msi_irqs 函数 


int arch_setup_msi_irqs( struct pci_dev * dev, int nvec, int type) 
| 

/* x86 doesn't support multiple MSI yet */ 

if (type = =PCI_CAP_ID_MSI && nvec > 1) 


return 1; 


node = dev_to_node( &dev - > dev) ; 
irq_want = nr_irqs_gsi; 
sub_handle =0; 


list_for_each_entry( msidesc, &dev — >msi list, list) 


irq = create_irq_nr(irq_want, node); 
Grae = = 0 
return —1; 
irq_want =irq + 1; 
i (! intr remapping_enabled) 


goto no_1r; 


no_ir: 
ret = setup_msi_irq( dev, msidesc, irq); 
if (ret < 0) 
goto error; 
sub_handle + +; 
| 
return 0 ; 
error: 


destroy_irq(irq); 


return ret; 
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这 段 代 码 首 先 判断 type 是 否 为 PCI_CAP_ID_MSI， 而 且 nvec 参数 是 否 大 于 1， 如 果 
满足 这 两 个 条 件 ， 该 函数 将 直接 返回 1。 通 过 这 段 代 码 可 以 发 现 ， 虽 然 在 Linux 2. 6. 31 
内 核 中 定义 了 一 个 新 的 pci_enable_msi_block 图 数 ， 但 是 PCIe 设备 依然 只 能 使 用 一 个 中 
断 问 量 号 。 

这 上段 程序 随后 调用 create_irq_nr 函数 ， 分 配 PCI 设备 使 用 的 irq 号 ， 并 将 其 保存 到 irq 变 
量 中 ， 之 后 调用 setup_msi_irq 函数 初始 化 当前 PCI 设备 的 MSI i. 吉 构 。 setup_msi_irq 
了 消 数 是 一 个 重要 函数 ， 其 实现 如 源 代码 15-12 所 示 。 


源 代码 15-12 ”setup_msi_irq 函数 


static int setup_msi_irq( struct pci_dev * dev, struct msi_desc * msidesc, int irq) 


| 
int ret; 


struct msi_msg msg; 


ret = msi_compose_msg( dev, irq, &msg); 
if (ret < 0) 


return ret; 


set_irq_msi( irq, msidesc); 


write_msi_msg( i1q, &msg); 


if (irq_remapped(irq) ) | 


struct irq_desc * desc = irq_to_desc(irq); 


desc — >status | = IRQ_MOVE_PCNTXT; 


set_irq_chip_and_handler _ name( irq, &msi_ir_chip, 


handle_edge_irq, "edge”); 
| else 


set_irq_chip_and_handler_name( irq, &msi_chip, 


handle_edge_irq, "edge”); 
dev_printk( KERN_DEBUG, &dev— >dev, "irqg %d for MSI/MSI— X\n”, irq); 


return 0 ; 


| 


这 段 代 码 首 先 调用 msi_compose_msg 范 数 ， 初 始 化 msg 结构 的 address_hi address_lo 和 
data 参数 ， 与 MSI Capability 结构 的 Message Upper Address 、Message Address 和 Message Data 
字段 对 应 。 

对 于 x86 处 理 需 系统 ，Message Address 字段 的 格式 见 图 10 - 1， 其 中 Destination ID 字段 
与 CPU 的 ACPI ID 相关 ，Linux x86 使 用 cpu_mask_to_apicid_and 函数 获得 该 字段 的 值 ; 而 
Message Data 字段 的 格式 如 图 10 -1 所 示 ， 其 Vector 字段 由 assign_irq_vector 图 数 设 置 ，Trig- 
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ger Mode 字段 为 0x00 表示 使 用 边沿 触发 方式 ， 而 Delivery Mode 字段 为 “Fixed Mode” 或 者 
“Lowest Priority”。 值 得 注意 的 是 ， 在 Message Data 字段 中 存放 的 是 中 断 向 量 号 (vector) ， 是 
一 个 硬件 的 概念 ， 而 设备 驱动 程序 中 使 用 的 irq 号 是 一 个 软件 关系 ， 两 者 之 间 存 在 对 应 关 
系 ， 但 是 并 不 等 同 。 

set_irq_msi 函数 设置 PCle 设备 使 用 的 irq_desc 结构 ;而 write_msi_msg 函数 将 msg 结构 
中 的 参数 写 人 到 PCle 设备 的 对 应 寄存 器 中 ; 而 set_irq_chip_and_handler_name 函数 设置 MSI 
中 断 使 用 的 中 断 处 理 程序 。 本 节 对 这 些 函 数 不 做 进一步 介绍 。 

2. PowerPC 

Linux PowerPC 使 用 的 arch_setup_msi_irqs 图 数 在 . /arch/powerpc/kernel/msi.c 文件 中 ， 
对 于 Freescale 的 PowerPC 处 理 器 ， 该 函数 等 效 与 fsl_setup_msi_irqs。fsl_setup_msi_irqs 函数 
的 实现 ， 如 源 代码 15-13 所 示 。 


源 代码 15-13 ”fsl_setup_msi_irqs 函数 


static int fsl_setup_msi_irqs( struct pci_dev * pdev, int nvec, int type) 


| 


list_for_each_entry(entry, &pdev -> msi_list, list) | 
hwirq = msi_bitmap_alloc_hwirqs( &msi_data - > bitmap, 1); 


virq = irq_create_mapping( msi_data - > irqhost, hwirq); 


set_irq_msi( virq, entry); 
fsl_compose_msi_msg( pdev, hwirq, &msg); 
write_msi_msg( virq, &msg); 
| 
return 0 ; 
out_free : 


return rc ; 


| 


该 函数 的 实现 机 制 与 x86 处 理 需 类 似 ， 值 得 提醒 读者 注意 的 是 在 fsl_compose_msi_msg 
函数 中 msg 一 address_hi 等 于 fL_msi 一 msi_addr lo， 其 值 为 MSIIR 寄存 需 在 PCI 总 线 域 的 
物理 地 址 。 在 该 函数 中 使 用 的 address_hi address_lo 和 data 参数 的 详细 描述 见 第 10. 2 节 。 
本 节 对 此 不 一 一 叙述 。 目 前 在 PowerPC 处 理 器 系统 中 ，PCIe 设备 也 只 能 使 用 一 个 中 断 向 
- 恒 . 中 


里 祥 


全 


15.2.2 Linux 如 何 使 能 MSI-X 中 断 机 制 


在 Linux 系统 中 ， 如 果 PCLLPCIe 设备 需要 使 用 MSI-X 中 断 机 制 ， 需 要 调用 pci_enable_ 
msix 函数 ， pci_enable_msix 函数 调用 的 大 多 数 函 数 与 pci_enable_msi 类 似 ， 本 节 并 不 会 重复 
解释 这 些 函数 ， 该 函数 的 实现 如 源 代码 15-14 所 示 。 
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源 代 码 15-14 ”pci_enable_msix 函数 


int pci_enable_msix( struct pci_dev x dev, struct msix_entry * entries, int nvec) 


int status, nr_entries; 


int i, j; 


if (| entries) 


return — EINVAL; 


status = peci_msi_check_device( dev, nvec, PCI_CAP_ID_MSIX); 


if (status) 


return status; 


nr_entries = pci_msix_table_size( dev ) ; 
if (nvec > nr_entries) 


return nr_entries; 


/* Check for any invalid entries */ 
for (i=0;i< nvec; i++)| 
if (entries[ ij. entry > = nr_entries) 
return — EINVAL;/ * invalid entry */ 
for (j=i + 1;j < nvec; j++) | 
if (entries[ ij. entry = = entries[ j]. entry) 
return — EINVAL;/ * duplicate entry */ 


| 
WARN_ON(1!! dev- >msix_enabled); 


/* Check whether driver already requested for MSI irq */ 
if (dev— >msi_enabled) | 
dev_info( &dev - >dev, "can'’t enable MSTI-X” 
"( MSI IRQ already assigned) \n”); 
return — EINVAL; 
| 
status = msix_capability_init( dev, entries, nvec); 


return status; 


与 pci_enable_msi_block 函数 不 同 ，pci_enable_msix 函数 的 和 人口 参数 包括 一 个 msix_entry 
结构 的 entries 链表 (在 使 用 这 个 entries 链表 之 前 需要 将 msix_entry. entry 参数 赋值 ) ， 而 


nvec 参数 保存 entries 链表 的 长 度 。 该 函数 首先 对 人口 参数 进行 检 


查 ， 然 


LA 


后 调用 msix_capabil- 


ity_init 函数 为 PCIe 设备 分 配 多 个 中 断 向 量 号 。 msix_capability_init 函数 的 实现 与 msi_capabil- 
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ity_init 函数 的 实现 方法 类 似 ， 本 章 对 此 不 做 进一步 描述 。 

该 函数 成 功 返 回 后 ，PCIe 设备 将 得 到 多 个 中 断 向 量 ， 并 将 结果 放 和 人 pci_dev 一 msi_list 和 
entries 链表 中 ， 之 后 PCle 设备 的 Linux 驱动 程序 可 以 使 用 多 个 request_irq 函数 注册 相应 的 中 
断 服务 例 程 。 

下 文 将 以 Intel 的 e1000e 网 卡 驱动 程序 说 明 如 何 使 用 MSI-X 中 断 机 制 挂 接 中 断 服务 例 
程 。 在 Linux 中 ， 与 e1000e 网 卡 相关 的 驱动 程序 在 . /drivers/net/el1000e/netdev.c 文件 中 。 
其 中 MSI-X 中 断 机 制 的 初始 化 在 e1000_probe 一 e1000_sw_init>el000e_set_interrupt_capability 
函数 中 ， 该 函数 的 实现 如 源 代 码 15-15 所 示 。 


源 代 码 15-15 ”e1000e_set_interrupt_capability 函数 


void el1000e_set_interrupt_capability( struct e1000_adapter * adapter) 


| 


switch (adapter - >int_mode) | 
case 上 1000E_INT_MODE_MSIX : 
if (adapter - >flags & FLAG_HAS_MSIX) | 
numvecs =3; /* RxQ0, TxQ0 and other */ 
adapter - > msix_entries = kcalloc( numvecs, 
sizeof( struct msix_entry ) ， 
GFP_KERNEL) ; 
if (adapter - > msix_entries) | 
for (i=0;1 < numvecs; 1+ +) 
adapter - > msix_entries| ij. entry = ii; 
err =pci_enable_msix(adapter - > pdev, 
adapter — > msix_entries, 
numvecs ) ; 
(Er = 0 


return; 


| 


当 e1000e_set_interrupt_capability 函数 返回 后 ，MSI-X 中 断 机 制 使 用 的 中 断 问 量 将 被 保 
存在 adapter - > msix_entries 数组 中 ， 之 后 e1000_open 一 > el1000_request_irq 一 e1000_request_ 
msix 国 数 将 多 次 调用 request_irq 函数 将 e1000e 使 用 的 中 断 服 务 例 程 挂 接 到 系统 中 断 服务 程 
序 中 ，el1000_request_msix 函数 的 实现 如 源 代码 15-16 所 示 。 


源 代 码 15-16 ”e1000_request_msix 函数 


static int el000_request_msix( struct el000_adapter * adapter) 


| 
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err = request_irq( adapter - > msix_entries|[ vector |. vector, 
Qel000_intr_msix_rx, 0, adapter - >1x_ring — > name, 


netdev ) ; 


err = request_irq( adapter - > msix_entries|[ vector |. vector, 
Qel000_intr_msix_tx, 0, adapter -= >tx_ring — > name, 


netdev ) ; 


err = request_irq( adapter - > msix_entries|[ vector |. vector, 


Qel000_msix_other, 0, netdev - > name, netdev); 
| 
e1000_request_msix 图 数 将 “接收 完成 中 上 断 请 求 e1000_intr_msix_rx” “发 送 完成 中 断 请 


求 e1000_intr_msix_tx*” 和 “其 他 中 断 请 求 e1000_msix_other” 分别 注 册 。 当 有 中 断 事 件 发 生 
时 ， 驱 动 程序 不 需要 读 取 中 断 状 态 寄存 器 之 后 再 进行 处 理 ， 从 而 有 效 降低 了 系统 延 时 。 


15.3 人 小结 


本 节 主 要 介绍 了 PCI 设备 的 中 断 请 求 在 Linux 系统 中 的 处 理 过 程 。Linux 系统 的 更 新 速 
度 较 快 ， 并 不 断 加 入 新 的 功能 。 本 章 的 内 容 基于 Linux 系统 ， 目 前 Linux 系统 支持 多 种 架构 
的 处 理 器 系统 ， 而 且 得 到 了 极 大 的 普及 。 对 于 有 志 于 学 习 体 系 结构 的 工程 师 而 言 ， 深 入 了 解 
几 种 操作 系统 是 必须 的 。 而 在 这 些 操作 系统 中 ，Linux 无 疑 最 为 开放 ， 读 者 也 最 容易 了 解 其 
实现 细节 。 但 是 值得 注意 的 是 ， 在 体系 结构 的 学 习 过 程 中 ， 不 要 拘泥 于 Linux 系统 本 身 ， 
Linux 系统 仅 包含 了 体系 结构 的 部 分 内 容 ， 也 只 是 一 种 实现 方法 。 

本 书 到 此 告 一 段落 ， 而 PCIe 总 线 仍然 继续 向 前 发 展 ，PCIe V3. 0 规范 即将 发 布 ， 其 中 增 
加 了 许多 新 的 功能 ， 而 这 些 新 的 功能 在 许多 处 理 器 系统 中 并 没有 意义 。 这 些 新 的 功能 在 本 书 
中 多 有 提 及 ,但 并 不 是 本 书 的 重点 。 本 书 的 重点 是 以 PCle 总 线 为 例 说 明 处 理 器 的 体系 结构 ， 
是 对 PCIe 体系 结构 进行 导读 ， 更 准确 地 说 ， 是 以 PCIe 总 线 为 例 说 明 处 理 器 体系 结构 中 局 部 
总 线 的 设计 原理 与 使 用 方法 。 
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